HOME/技術記事/Chaos Engineering（カオスエンジニアリング）導入にあたり

Chaos Engineering（カオスエンジニアリング）導入にあたり

2024/11/25 15:122024/12/13 16:41

メディア統括本部サービスリライアビリティグループ（SRG）の片岡です。

#SRG（Service Reliability Group）は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。

本記事は、CyberAgent Group SRE Advent Calendar 2024の14日目の記事になります。

今回は、カオスエンジニアリングの導入を進める上で整理すべきこと、それに期待することについて記したいと思います。

実際に導入してからの気づきや詰まったところなどは続編として投稿していきたいと思います。

カオスエンジニアリングとは導入にあたって Chaos Mesh を触ってみる終わりに

カオスエンジニアリングとは

Netflix の Chaos Monkey の開発から始まり、障害を前提としたシステム構成を目指す考え方（Design for Failure）が広がりました。

パブリッククラウドの急速な普及、マイクロサービス構成など、システムが複雑化し、その変更は早く予測不可能な障害の可能性が高まっています。

そこで、自ら障害を注入し、未知の障害に対するシステム（サービス）の弱点を洗い出し、レジリエンスの確保を目指すことができるのがカオスエンジニアリングとなります。

本番導入されているところもありますが、ステージングまでの導入に留めているところや、導入したいがまわりの反対が多いところと、様々な事情により上手く導入が進んでいないところがまだまだ多いようにも見受けられます。

障害を注入するというと不安や反対が強いですし、無闇矢鱈に障害を起こすことをイメージされることもありますが、”注入する障害自体はコントール可能”なので、十分な検証を行うことでその不安や反対も乗り切れると思います。導入することだけを目的に置いてしまうと、本番環境でそれによる余計な障害を引き起こしてしまうなど、本来の意義や目的を失ってしまう可能性があります。

機能するまではそれなりに長い道のりだと思いますが、機能することで我々が解決すべき課題が明確になり、サービス信頼性の向上につながると考えています。

導入にあたって

今回の記事では実際にプロダクトに導入するところの話はありませんが、自分が導入の対象している弊社のOSSプロダクトである Bucketeer （フィーチャーフラグマネジメント・A/Bテストプラットフォーム）のプロダクトオーナーの方とはBucketeerの信頼性を高める目的としてカオスエンジニアリングによって得たいものについてすり合わせを行いましたので、簡単にまとめたものを記します。