【2】DBサーバのOSフリーズの原因特定

【2】DBサーバのOSフリーズの原因特定

DBサーバで原因不明のOSフリーズが発生
自社で特定できなかった原因をIIMが迅速に分析



きっかけ:DBサーバのOSがフリーズ


図面の設計を行うシステムのDBサーバで、原因不明のままOSがフリーズするという現象が発生し、利用部門からのクレームが多く寄せられていました。


システム部門の対応:原因究明ができず、性能劣化が継続


従来使用していた監視ツールの情報を元に分析を試みましたが、原因が分からないままでした。


IIMによる性能評価:①非ページプール使用量の状況


そこでIIMにご依頼いただきES/1による性能分析を行わせていただきました。

まずは、リソースの状況を確認したところ、OSのフリーズが起きた時間帯で、メモリ内の非ページプールの使用量が124MBに近くなっていることが分かりました。

非ページプールとは、メモリ内のページアウトが行われない領域で、このサーバでの非ページプールの上限値は128MB(※)となっており、Windowsの特性上この上限値に達するとOSがダウンする可能性があります。

(図1:非ページプール使用量の状況)


※通常、32Bbit Windowsの非ページプール上限値は通常256MBですが、こちらのお客様ではWindowsのオプション設定により上限値を128MBに設定されていました。


IIMによる性能評価: ②Oracle接続セッション数の状況


さらに分析を進めると、フリーズが起きた時間帯に、Oracle接続セッション数が400近くになっていることが分かりました。

(図2:Oracle接続セッション数の状況)


上記の状況より、Oracleのセッション数が増加し400セッションに近づくと、メモリの非ページプールの使用量が不足し、OSがフリーズしていたと考えられ、その旨をお客様に報告いたしました。

システム部門の対応:利用者への徹底


IIMの報告を受け、暫定的にセッション数を制限するために、システム利用者に対して同時に開くオンライン画面を
1利用者あたり2画面までというルールを徹底し、セッション数が増えないようにしました。

その後、開発部に依頼し、画面を開いたままの状態になるとセッションを切る、というアプリケーションの改訂を行い
ました。


結果:OSフリーズの解消


アプリケーションの改訂をおこなった結果、非ページプールの使用量を減らすことができOSのフリーズが解消できました。


自社で半年かけて分からなかった問題点が迅速に特定できES/1の必要性を確認いただけました。