SRE成熟度評価
取り組みの背景
物理的に、全プロダクトへEmbeddedするのは難しいので、横断的にSRE推進する方法を私たちは探していました。また、全体を俯瞰してみる為のデータや指標がない為、組織として効率的にリソースを割くことができておらず、リスク管理においても後手に回ることが少なくありませんでした。そういった課題を解決するために、私たちはSRE成熟度評価を開発しました。
SRE成熟度評価とは
事業部全体を俯瞰しデータ化するために、能力成熟度モデル統合をベースに作成したものです。
また、サービス信頼性の断層などを参考に必要項目をリスト化し、評価しやすくする為に極力シンプルにしています。
SRE成熟度評価によって何ができるのか?
SRE成熟度評価を活用することによって、横断的にSRE推進(Enablement含め)が行えます。
また、自分たちの現在地を知ることができるので、改善計画が立てやすくなり、プロダクトにとっての理想の状態へ近づくことが出来る様になります。
SRE成熟度評価の流れ
SRE成熟度評価は、大きく分けて4つのステップで実施します。
- 準備
- 評価と計画
- 改善実施
- 振り返り
1.準備
SRE成熟度評価を実施するにあたり、SRE成熟度評価のコンセプトや活用フロー、Lv.3 ガイドラインの説明をします。
- Lv.3 ガイドライン
- 各項目のベストプラクティスを考える上での観点を質問にしたもの
- 各プロダクトの理想状態 = Lv.3
- 各プロダクトにおいての理想状態は違うので、全てを満たしている必要はない
2.評価と計画
各項目のLv.3を参考にしながら、各項目の現在の成熟度レベルと理想状態の認識合わせを行います。(※ 各項目のLv.3については、2023/06頃に共有予定)
認識合わせが行えたら、最後に改善計画を立てます。まずは、四半期単位での改善計画を作成し、そこからアクションアイテムとオーナーを整理していきます。また、監視、インシデント対応、ポストモーテムがLv.1の場合は、優先的に改善計画を立てることを推奨しています。
3.改善実施
他サービスでのナレッジを活用しつつ、各項目の成熟レベルを改善していきます。ポストモーテムやインシデント対応については、すぐに活用できるテンプレートも提供しています。
4.振り返り
改善を実施したら、四半期または半期毎に振り返りを実施し、改善計画を見直します。先ずは、四半期毎に振り返りを実施し、運用負荷が高ければ、半期毎にするのが良いです。
SRE成熟度評価によって得られたもの
- データとして、事業部全体を俯瞰してみることができる様になった
- 優先的にリソースを割くべきプロダクトや改善項目を決めやすくなる
- 把握できていなかった社内のプラクティスを知ることができた