【8】CPUの有効利用

【8】CPUの有効利用

監視ツールも見落としていたコマンドループを発見
CPU資源の有効活用と障害未然防止に貢献

きっかけ

IIMの定期性能評価

パフォーマンス管理要員不足から、ES/1を用いた定期性能評価サービスをご利用いただき、毎月システムの稼働報告を受けていらっしゃいました。

400台を超えるサーバを所有されており、自社で管理を行うには限界がありました。サービスをご利用いただく以前は、40台弱の重要サーバについては性能データを取得の上、稼働状況を確認されていました。しかし、それ以外のさほど重要ではないサーバについては、トラブル発生時に対処するのみでした。

ある月の稼働報告時に、他のサーバとは明らかに異なるCPU使用状況を示しているサーバを弊社SEが発見いたしました。

(グラフ1:特異なCPU使用状況)



 

システム部門の対応

独自に調査も判明せず

常時50%使用し続けているプロセスがある
旨を、IIMからお客様にお伝えいたしました。

しかし、お客様では原因の見当がすぐにはつきませんでした。他社製の性能監視ツールもご利用されていましたので、そちらでも調査を行いましたが、やはり原因は突き止められませんでした。


IIMによる性能評価

IIMからのアドバイス

そこで、再度IIMにご相談をいただきました。弊社SEにて他のリソース状況も確認いたしましたが、特にボトルネックとなっている現象も見当たりませんでした。

次に、コマンドループが発生している可能性が高いと推測して、お客様に該当サーバがマルチCPU構成になっていないかをご確認いただくよう依頼いたしました。


システム部門の対応

コマンドループを発見

システム構成を確認したところ、IIMが推測したとおりマルチCPU構成となっており、1サーバに2CPUが搭載されていました。

1CPUがループしてしまい、実際には業務を処理できない状態となっていました。CPU資源の半分が無駄になっており、このまま放置しておくと障害に繋がる恐れもありました。

お客様にてコマンドループを解除されたところ、現象は解消されました。その結果、2CPUで効率良く業務を処理できるようになりました。

(グラフ2:改善後のCPU使用率グラフ) 



結 果

潜在的な問題点の発見と解決

コマンドループを早期に発見できたことで、CPU資源の有効活用と障害の未然防止の両面で効果を得られました。

お客様としては障害検知のために導入していた監視ツールでコマンドループが発見できなかったことを不思議に思われていました。

何故なら、サーバ全体のCPU使用率としては過負荷になっていなかったので、監視ツールの閾値チェック機能では簡単に発見することができませんでした。

稼働統計を目的に利用していたIIMのサービスが障害検知にも役立つことを発見されたと同時に、ES/1と監視ツールを併用するメリットを再認識されました。