用語 | 意味 |
SLA
|
ベンダーと顧客間の契約。 サービス品質を保証し、違反時にはペナルティが発生することも。 |
SLO
|
SLA内で定められた具体的な目標値。 例:ログインサービスの可用性99.95% |
SLI |
実際のサービス品質を示す指標。 例:応答時間、成功率など |
エラーバジェット (Error Budgets) |
サービスの許容される信頼性の範囲。 例:SLOが99.5%なら、0.5%がエラーバジェット |
バーンレート (Burn Rate) |
エラーバジェットの消費速度。 バーンレート=1がSLOの定められた期間にエラーバジェットを消費しきる状態を指す。 |
例えば、SLOが「99.9%の稼働率」の場合、エラーバジェットは「0.01%」となり、1ヶ月(30日)で約43分の障害が許容されるということになります。
また、このエラーバジェットと合わせて理解しておきたいのが、「バーンレート(Burn Rate)」です。バーンレートは、エラーバジェットの消費速度のことで、バーンレート=1がSLOの定められた期間にエラーバジェットを消費しきる状態を指します。
この場合のバーンレート=1は、1ヶ月(30日)後にエラーバジェットが0.01%に達する=約43分の障害発生を指し、
バーンレート=2は、エラーバジェット0.01の消費速度が2倍であることを指すので、15日後に約43分の障害発生を指すことになります。
裏を返すと、バーンレートが常に1以下であれば、エラーバジェットを消費しきることはありません。
「あるサービスが1分間に5回以上エラーしたら検知する」というような閾値管理をしている場合、エラーバジェットの考え方を組み合わせることで、「1分間にエラーが5回未満の状態が、1日のうち何%達成できているのか」というような達成度合いを測ることができます。
達成度100%だったものが、99.99%→99.98%→99.97%と徐々に目標達成度が低下してきている状態を検知することができます。
さらに、バーンレートの考え方を組み合わせると、目標達成度100%→99.97%に1ヶ月かけて低下したのか、1日で急激に低下したのかという状態も検知できるようになります。
Dynatraceでは、テンプレートを使って簡単にSLOを設定したり、達成度合いを色分け表示することで、視覚的にも容易に現状を把握することができます。
また、新UIではSLOs用のアプリが提供されています。
SLOsを設定するとSLO用のメトリックが作成されるため、これらのメトリックを利用することで、ダッシュボードにグラフを表示したり、アラートを設定することもできます。
ClassicUIの場合
[Automation] > [Service-Level Objectives]から、設定や確認をすることができます。
新UIのアプリの場合
[Apps] > [Service-Level Objectives]から、設定や確認をすることができます。
SLOは、信頼性の高いサービス提供のための「羅針盤」です。
Dynatraceを活用すれば、SLOの設定・確認をスムーズに行うことができます。
ぜひ、SLOを運用に取り入れて、安定したサービス提供を目指してみてください!
Service-Level Objectives Classic basics — Dynatrace Docs
Service-Level Objectives — Dynatrace Docs