【4】オンライン遅延の改善

【4】オンライン遅延の改善

CPUの過負荷によりオンラインレスポンスが悪化
システムパラメータの変更と業務の見直しによりCPUを延命

きっかけ

CPU使用状況の逼迫

CPUが2週間にも亘り100%の使用率で推移しており、過負荷状態になっていました。実態は夜間バッチの積み残しにより、日中のオンラインサービス時間帯までバッチ処理が実行されており、それに伴ってオンラインレスポンスが悪化するという悪循環でした。

システム部門の対応

対応策が不明

CPU能力を使い切っていることおよびメモリやI./Oには問題がないことは把握できていたが、何をすればいいのかがわからず、対応策を決めかねていらっしゃいました。

そこで、IIMに評価分析の依頼をいただきました。


IIMによる性能評価

性能評価結果

ES/1による性能評価を実施し、出力されたチューニングヒントとSEコンサルティ ングの結果、CPUについて以下4点の現象が見受けられました。

・業務量に対してCPU能力が不足している。
・日中のIMSオンライン使用率は15~20%。
・OSの使用率(オーバヘッド)が高い。
・日中、夜間ともにCPUを大量に使用する業務がある。


(グラフ1:業務プロセッサ使用率の内訳)


また、メモリやI/Oには大きな問題はありませんでしたが、仮想記憶ESQA使用率が100%になっていることも判明いたしました。

IIMからの改善案

改善案

IIMからは、IMSオンラインのサービスレベルを確保することを最優先とし、下記3点の対応策を提示いたしました。

①プロセッサ保護機能の適用
②稼働業務の見直し
③ディスパッチング優先順位の設定変更


それ以外の改善策として、オーバヘッドの削減、業務量の見直し、CPUの増強、仮想記憶ESQAの拡張も合わせて提案いたしました。


システム部門のご判断

対応策

IIMからの提案を受けて、お客様としては「オンラインレスポンスの確保」と「オーバヘッド削減(I/O削減)」の2点に絞って、対応策を実施することに決定されました。 具体的には、下記3点の対応策を実行されました。

①WLMポリシーを変更し、プロセッサ保護機能(CPU CRITICAL)をIMSサービスクラスに適用することで、
  オンライン業務を最優先に設定
②DFSMShsmの「高速連続Migration」を活動化することにより、データが更新されなかった時の実I/Oを削減
③ システムパラメータ「RMPTTOM」の設定値を変更することにより、SRMによるオーバヘッドを削減


結論

上記3点の対応策を実施した結果、以下の効果が得られました。

①IMSオンライン業務の遅延が減少
②1日で約346万回の実I/O削減と約6分のCPU使用時間を削減
③1日約17分のCPU使用時間を削減

結果

CPUの延命を実現

チューニングを実施した結果、100%に張り付いていたCPU使用量を削減することができました。また、その後新サービスを追加された際も、問題なく処理がなされています。

結果的に、現行CPUを延命することで、大きな追加費用発生が回避できました。 加えて、オンラインレスポンスの改善と、バッチ処理の効率化も達成できました。

 (グラフ2:改善結果)