SRE信頼度計測について

本記事は、CyberAgent Group SRE Advent Calendar 2024の初日の記事になります。初日なんで、緩めに書いてます。

はじめに


メディア統括本部 サービスリライアビリティグループ(SRG)の柘植(@shotaTsuge)です。
#SRG(Service Reliability Group)は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。

2024年の振り返り


今年は、本業だけでなくSRE NEXT 2024のCo-ChairをやったりとSREコミュニティにも貢献することができた一年だったと思います。正直、めちゃくちゃ忙しかったですが、最終的には参加者️1,500人以上、イベント満足度️96.1%と参加者の満足度の高いイベントにすることもできたので、やって良かったと思っています。 SRE NEXT 2024のアーカイブ動画は、現地のパネルセッション含め全てYoutubeに上がっているので、ぜひ視聴していただけると幸いです。
本業では、横断SRE組織を2020年に事業化させ、メディア事業だけでなく弊社のSGE管轄(ゲーム事業部)や社外などへとSRE支援を拡大させていくことができました。事業化させる為に、行ったことやSRE NEXTのパネルセッションで少し触れたSREライフサイクルについては、また別の機会があればブログや登壇などで共有できればと思います。
本記事では、SRE信頼度計測について少しだけ書きたいと思います。

SRE信頼度計測


横断SRE組織をやっていると、複数プロダクトに対してSRE支援を行うことになりますが、組織のリソース的に全プロダクトへEmbbeddedして改善することは現実的に難しいです。そのため、事業部全体を俯瞰しデータ化することで、事業としての優先順位を決めやすくするために、SRE成熟度とSRE信頼度計測というアプローチを開発し、SRE改善に取り組んでいます。
SRE成熟度については、昨年のCyberAgent Developer Conferenceでの登壇資料を見ていただければと思います。
SRE成熟度とSRE信頼度計測は、それぞれの目的やターゲット、質問項目に下記の様な違いがあります。SRE信頼度計測では、役員管轄毎のシステム信頼性・リスクの把握を目的としており、役員をターゲットにしています。また、基本的には全ての注力プロダクトへ導入する様にしています。

ケイパビリティの計測


SRE信頼度計測では、
  • セキュリティ
  • キャパシティプランニング
  • 可用性
  • 運用最適化
の4つのカテゴリのケイパビリティを計測します。質問項目は、リスクの高いものを中心としているので、条件によっては一部例外はありますが、対応必須項目のみとなっており、注力プロダクトへの導入を推進しています。
下記、項目(一部抜粋)に対して、Yes/Noで回答をし、回答時に評価に対する根拠としてのドキュメントなどの成果物の回収も行なっています。

傾向分析と改善


ガバナンス的に、各プロダクト毎に計測用Google Sheetsを用意しているので、Google Apps Scriptを使って、分析用Google Sheetsへデータを集約し、 Looker Studioを活用して、事業部や項目毎の傾向を分析しています。
公開できない情報が多いため、わかりにくいかもしれませんが、下記の様な形で収集したデータの分析を行い、効率的な改善に役立てられる様にしています。

終わりに


SRE信頼度計測の活用によって得られたものとしては、技術スタックやシステム設計が同じでも、組織文化や開発体制の違いによって、評価が同じとは限らないという気づきを得ることができました。また、SRE信頼度計測によって会社レベルでのSRE文化の浸透と技術投資判断する際の参考資料として活用できるといった成果も得ることができました。
今回の記事では書かないですが、SRGではSRE信頼度計測などによって得られたデータを元に、事業部やプロダクトの信頼性やレジリエンス向上に繋がるSREプラクティスの開発や展開を行っています。SREプラクティスについては、今後社外への公開も予定しています。
 
改めてとなりますが、今回のAdvent Calendarによって、弊社グループの取り組みを多くの人に知ってもらえると嬉しいです。私個人としても、楽しみです。
明日は、@mm_matsuda816 です。
 
SRG では一緒に働く仲間を募集しています。 ご興味ありましたらぜひこちらからご連絡ください。
 
このエントリーをはてなブックマークに追加