Slack + AWS Chatbot + Bedrockで実現する生成AIを活用したインシデント避難訓練のPoC
#SRG(Service Reliability Group)は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。
本記事は、弊チームのハッカソンイベントで作成したSlackワークフロー + AWS Chatbot + Bedrockをつかったインシデント避難訓練のPoCの紹介です。
SRGの1日ハッカソンイベント 「SRG TechFest」
弊チームでは四半期に一度、チームメンバー全員参加のハッカソンイベントを開催しています。
このイベントではテーマに沿ったお題をチームごとに考え、それに1日かけて取り組むことになっています。
今回の全体テーマは『SREの視点から生成AIを活用してみる』でした。
私のいるチームでは以下の2つのことを取り組んでみました。
- 生成AIを活用したインシデントの避難訓練
- Slack検索にローカルLLMを活用する
今回の記事では前者の「生成AIを活用したインシデント避難訓練」について書きます。
生成AIを活用したインシデント避難訓練
インシデント避難訓練を題材にした理由
インシデント避難訓練とは実際のインシデントを想定して、エスカレーションフローの確認や対応フローの確認をおこなうことです。
これを行うことで実際のインシデント時の対応力があがったり、ジュニアメンバーの育成にも役立つなどのメリットがあります。
しかし、実施するための準備が大変だったり、何から手を付けたらいいかわからないという場合もあるかと思います。
そこで、生成AIをつかって擬似的にインシデントが発生したと想定し、その対応を考えることで、実際のインシデント対応に活かせるきっかけにできないかと考えました。
構成
Slackワークフローをトリガーとし、AWS Chatbotに問い合わせを投げるとAmazon Bedrockとやりとりをして、返信を返してくれます。
2024年9月のアップデートにより、AWS ChatbotをつかってSlackからAmazon Bedrockとやりとりを行うことがノーコードで実現できるようになりました。
今回の制作物も一切コードを書かずに実現しています。
作成したものの紹介
Slackのチャンネルからワークフローを起動するボタンを押します
ワークフローが起動したらそのシステムのサービス名やシステム構成を選択し、送信します。
メッセージに投稿され、AWS Chatbotにシステム構成情報が送信されます。
すると、数秒後にスレッドの返信にchatbotから問題文がおくられてきます。
回答を送信するボタンを押し、対応の方針を文章で入力して送信します。
場合によって追加の質問が返信されてきます。
回答を送信するボタンを押して、さらに回答を入力します
最終的に、今までの対応について採点・評価・解説が送られてきます。
感想
よかった点
- 精度は荒いが障害対応の初動を考えるきっかけにはなりそう
- 「何をしたらよかったか」のアドバイスはジュニア層の底上げに使えそう
いまいちな点、改善点
- エスカレーションフローが機能するかは、実際に人を巻き込んで実施訓練する必要はある
- 採点が甘く、調査内容があいまいでも高得点になる
- このインシデント避難訓練ワークフローの次のステップが整備できると良さそう
- 例)エスカレーションフローが未整備だったら、フロー整備に必要な情報への誘導など
終わりに
かなり荒削りですが成果の方向性が見えてきたかなと思いました。
イベントが良い機会となり、普段の業務では手を出しづらい部分に取り組めて楽しかったです。
今後は、チーム外の人に試してもらいフィードバックを得ながら改善させていきたいです。
SRG では一緒に働く仲間を募集しています。
ご興味ありましたらぜひこちらからご連絡ください。