Datadog MCPが使えなくても大丈夫!agent-skills × pup でAIによるインシデント調査を実現する

メディア統括本部 サービスリライアビリティグループ(SRG)の鬼海雄太(@fat47)です。
#SRG(Service Reliability Group)は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。
本記事は、Datadog agent-skillsとpupをGithub Actionsで実行し、自動で障害調査してみた事についてまとめている記事になります
なにかの役に立てば幸いです。
 

Datadog MCP Serverのプライベートプレビューが続いている


Datadog MCP Server は、昨年2025年6月のDASHにてプライベートプレビューが発表されました。
 
発表後すぐにMCP Serverのプライベートプレビューの申し込みをしましたが、招待されないまま気がつけば年が明けていました。
そんな中、2月にDatadogの公式CLIツール「Pup CLI」がプレビューリリースされました。
 

Datadog Pup CLI


Datadogが提供している公式コマンドラインツールで、AIエージェント対応の包括的なCLIです。
従来のDatadog APIではAPIキーが必須でしたが、Pup CLIではOAuth2認証をサポートしているため、ブラウザベースでの認証を利用することも可能です。
 
Pupはエージェントモードがあり、AIコーディングエージェントから呼び出されると自動的にAI向けに最適な構造化されたJSONレスポンスを返します。フラグか、環境変数で明示的に有効化することもできます。

Pupのインストール(Macの場合)

Pupでブラウザ認証してみる

 
認証するオーガニゼーションを選択します。
 
許可する権限の一覧が表示されるので承認します。
 
ここで認証されたトークンの有効期限は1時間となっています。
Tokenの期限がきれたらrefleshで更新することも可能です。
 

Pupでの操作例

以下のような操作ができます。(公式から一部引用)
Monitors
Metrics
Dashboards

Datadog Skills for AI Agents


Pupの最初のリリースから一週間ほどあとに、Datadog agent-skillsというものが公開されました。
 
これは、「AIエージェントにDatadogでの調査手順を教えるためのスキル集」となっていて、
Pupをつかって何をどう調べるかが定義されています。
具体的には以下のようなスキルが定義されています。
SkillDescription
dd-pupPupでの認証やコマンドの定義
dd-monitorsモニターの管理・ミュート
dd-logsログ検索
dd-apmAPMのトレースなど
dd-docsDatadogの公式ドキュメント検索
dd-llmoLLM Observability関連(Datadog MCP Serverのtoolsetに依存)

agent-skillsのインストール方法

 

agent-skillsをClaude Codeからつかってみる

Claude Codeで以下のような指示をしてみます。
 
dd-apmのスキルを読み込んだ後、pupコマンドでDatadogの値をとってきていることがわかります。
最終的に以下のような結果を表示してくれました。

Github ActionsからDatadog agent-skills × pupで初動調査できるようにしてみる


自身の端末からClaude CodeをつかってDatadogのデータを調査できることは確認できました。
次にGithub Actionsをつかって初動調査を実現できるかを検証してみました。

全体構成図

構成は以下の通りで、Github ActionsからDatadog agent-skillsとPupをインストールし、Claude Code Actionをつかって、AWS BedrockのClaude Sonnet4.6のモデルを使って実行させます。
全体構成図イメージ
全体構成図イメージ
 

先にGithub Actionsでのレポート出力イメージを紹介

この構成でGithub Actionsを手動実行してレポート結果を出力させました。
まずは全体のサマリが表示されます。
 
遅いエンドポイントなどがまとめられていたり、今すぐ調査したほうがいい項目についての具体的なアクションなどが提案されています。
 

実際の手順

ここからは実際に稼働するまでの手順を紹介していきます。
PupのOAuth2の場合Tokenの有効期限が1時間になってしまうので、今回はDatadog API KeyとAPP_KEYをセットしてPupを利用しています。
GitHub Secretsに以下の環境変数を設定します。
環境変数名セットする値
Datadog のAPIキー
Datadog のAPPキー
Datadogのリージョン(日本なら ,USの場合は )
Bedrockを使うAWS環境で作成したOIDC用IAMロールのARN
なお、APPキー発行の際に実行可能な操作をScopeで絞ることが可能なので、今回は安全のために必要な機能の読み取り権限のみ付与しました。
 
Github Actionsのworkflowのymlファイルを作成します。
今回使用したモデルはglobal.anthropic.claude-sonnet-4-6です。
 
datadog-triage-claude.yml
 
あとはActionsから手動実行します。
今回の例ではAPMのサービス名指定や対象の期間などを指定できるようにしました。
これを実行すると、この章の最初に貼ったようなレポートが生成されます。

終わりに


Datadog MCPが使いたくても使えない状況が長く続いていた中、Pup CLIとagent-skillがリリースされたことでAI活用に希望の光が見えました。
 
今回はGithub Actionsの手動実行による検証でしたが、Slackと連携してWebhookで起動するなどの応用も考えられそうです。
もっと使い勝手がよくなるように改良していこうとおもいます!
(Datadog MCPも本当は早く使いたいです!!!)
 
SRGにご興味ありましたらぜひこちらからご連絡ください。