【3】エラーメッセージの原因特定

【3】エラーメッセージの原因特定

Web、AP、DBサーバを総合的に分析
自社で特定できなかった障害発生原因をIIMが迅速に解明


 

きっかけ:「ロードバランサによる振り分け警告」というシステムメッセージを検知


Webサーバ、APサーバ、DBサーバの3階層で構成されているネット販売システムにおいて、9:30、11:30、15:30の時間帯で、「ロードバランサによる振り分け警告」というエラーメッセージを検知しました。

Webサーバは4台でバランシングしてありますが、エラーメッセージの対象は4号機でした。(図1)

(図1:システム構成図)


システム部門の対応:ロードバランサを調査するも原因究明できず


当初、ロードバランサ側の問題で振り分け異常が発生していると考え、そちらを集中的に調査していましたが、なかなか原因が解明できません。インフラ基盤を大幅に刷新した直後だということもあり、早急な原因究明が必須でした。

このシステムは定常的にES/1でデータを取得していたため、IIMに性能評価をご依頼いただきました。


IIMによる性能評価:①エラー発生時のレスポンス時間、アクセス件数を確認


エラーが発生した時のサーバ側の状況を確認すると、Webサーバ4号機のレスポンス時間が長くなっていることが判明しました。他のWebサーバのレスポンス時間は0.5秒以内でしたが、4号機のエラー発生時は2.5秒以上となっていました。(図2)

この結果から、エラー発生時にレスポンスの悪化が生じていることも分かりました。アクセス件数においては他のWebサーバと同様の振り分け状況で、問題はありませんでした。

(図2:4号機の平均レスポンス時間とアクセス件数)


IIMによる性能評価:②レスポンス悪化の原因を調査


次に、レスポンスが悪化した原因を調査するため、Webサーバ4号機とその経路上にあるAP、DBサーバのリソース状況を確認しました。

各サーバともCPU、メモリは特に問題となる点はなく良好に稼動していましたが、I/Oに関しては、エラーが発生した時間帯で、APサーバの特定デバイスのレスポンス時間が長くなっていることが判明しました。(図3)

(図3 APサーバの特定デバイスのレスポンス時間状況)


上記より、APサーバのデバイスのレスポンス時間が長くなったことで、Webサーバのレスポンスが悪化し、その結果、ロードバランサが異常を検知し、エラーメッセージが発生した可能性が高いことをご報告いたしました。

また、今回のシステムは共有ディスクを使用していますが、レスポンス悪化を示したのは4号機のみだったため、共有ディスクには問題ないと推測しました。


結果:警告エラーの収束


IIMからの結果を受け、システム部門でさらに調査したところ、原因はAPサーバと共有ディスクの接続部位であるFCスルーカード(ディスク関連機器)の故障と特定し、交換することを決定いたしました。

FCスルーカードを交換して以降、レスポンス時間も正常になり、「ロードバランサによる振り分け警告」というメッセージも発生しなくなりました。(図4)

(図4 FCスルーカード交換後のレスポンス時間の状況)



まとめ


Webサーバ、APサーバ、DBサーバの3階層を定常的にES/1で一元管理していたため、障害発生時の原因切り分けを迅速に行うことができました。

また、各グラフの時間軸が同じであるため、問題発生時の比較が容易に行えて、関連性を的確に把握することができました。