株式会社 NTTネオメイト 様

株式会社 NTTネオメイト 様 導入事例

株式会社 NTTネオメイト 様

http://www.ntt-neo.com/


関西支店 専用ネットワーク部 システム担当
主査
田中 隆幸

※ご部署、お役職は2012年当時のものです。

ES/1とIIM社のコンサルサポートを活用して、予防保全と問題の早期対処を実現

会社概要


弊社は、通信サービスの安全と発展に貢献すべく、NTT西日本グループのネットワーク系エンジニアリング部門として、NTT西日本が提供する通信サービスの設計・構築から運用・保守に至るまで幅広く手掛けております。


月例会と週次点検による予防保全、問題の早期対処に向けた取り組み
NTT西日本の設備管理システムの保守にてES/1を採用しています。このシステムは特に安定運用が不可欠なため、ES/1でサーバ、ネットワークの性能評価を行い、IIM社のコンサルサポートを利用しながら、予防保全に向けて月例報告会と週次点検に取り組んでいます。(図1)

月例報告会は、システム性能の問題や予兆を早期発見することを目的とし、毎月IIM社からレポート報告を受けています。ここで取り上げられた項目は、解析、対処、効果測定のPDCAを実施して、抜かりのないチェックを行っています。

また、週次点検は性能基準値や点検項目などを記した「性能評価ガイドライン」と「評価手順書」を基に行い、実施者スキルに依存しない的確で迅速な点検を実現しています。

これらはES/1のアウトプットとIIM社の専門知識、豊富な経験を基に作成しました。ES/1は複数サーバの稼働状況を1枚のグラフでまとめて表示することが可能なため、数百枚に及ぶ点検画面を減らすことで、サーバの点検工数削減にも役立っています。


ES/1の活用事例
月例報告会、週次点検ではES/1の稼働グラフを確認しています。そこから予防保全、早期対処できた事例をご紹介します。

1)サーバサービス停止への対応
業務アプリケーションのバージョンアップ以降、ある処理を行うサーバにて、突然サーバ接続エラーが1日何度も頻発しました。月例報告会にて事象が発生したサーバと発生しないサーバの稼働状況の差異を解析したところ、接続エラーのサーバはある期間で特定プロセスの仮想メモリ使用量が増加し、一定の値に達することを確認できました。(図2)

この問題事象の解決方法はアプリケーションの改修ですが、サーバ数が膨大かつサーバ停止が必須となり業務影響が大きいため、サーバ接続エラーを未然に防ぐための対処として、一定の周期でOSのリブートを運用に組み込むことを決定しました。現在もサーバ接続エラーを回避できています。

2)ネットワーク遅延時の調査
月例会にてIIM社より特定の拠点でユーザ端末とデータセンタ間の通信に再送が頻発していると報告を受け、遅延要因箇所の切分けのためにES/1 NEO CS-Networkを用いて、問題が発生している拠点、データセンタ、中継地点のパケットを確認、解析しました。その結果、要因はネットワークではなくユーザ端末側の問題と判断でき、端末側の調査を依頼することができました。

3)監視ツールでは把握できないプロセスループを検出
週次点検において、あるサーバだけCPU使用率が一定の負荷で推移しており、4コア中1コアを専有していることを確認しました。実施すべき処理は正常終了していましたが、プロセスが残った状態だったため、プロセスを再起動することで事象を解消しました。この事象はCPU使用率自体の閾値を超えるものではないため、監視ツールからのアラートはあがらず、ES/1で出力される稼働グラフを点検することで早期対処ができました。


今後の展望
安定運用には問題発生予兆の早期発見が必要であり、性能評価は不可欠です。今後もIIM社の専門家目線でのアドバイスをいただきながら、システムに関わる関係者の連携を継続していくことが大切と考えています。現在は週次点検を実施していますが、期間を拡大して1ヶ月程度の傾向を確認することで、さらなる問題発生予兆の検出を行う予定です。

 


図1.月例報告会、週次点検の確認項目

図2.正常なサーバと停止したサーバの比較