【KubeCon Day4】参加レポート
メディア統括本部 サービスリライアビリティグループ(SRG)の鈴木(@sZma5a)です。
#SRG(Service Reliability Group)は、主に弊社メディアサービスのインフラ周りを横断的にサポートしており、既存サービスの改善や新規立ち上げ、OSS貢献などを行っているグループです。
本記事は、KubeCon参加記として、Day4のKeynoteやセッションの内容を紹介します。
はじめに
KubeCon + CloudNativeCon North Americaも、ついに最終日となるDay4を迎えました。
最終日も、クラウドネイティブ技術の未来を形作る重要な発表や、現場の課題を解決する具体的なセッションが数多く行われました。
本記事では、Day4のKeynoteの要約と、個人的に特に興味深かったセッションについてレポートします。
Keynote
最終日のKeynoteでは、これまでのカンファレンスを振り返りつつ、クラウドネイティブの未来を展望する多様なテーマが語られました。

プラットフォームエンジニアリングの進化と複雑さの抑制
プラットフォームエンジニアリングの課題と成功要因について紹介されており、テンプレート配布などは便利な一方で運用負荷が分散しやすいと指摘していました。
成功するプラットフォームには「APIによるセルフサービス」「ビジネスとの継続的な適合」「マネージドサービスとして扱う」の3原則が重要であり、市場サービスを活用しつつ自社ならではの価値を見極めて構築すべきだと強調していました。
AI時代を支えるKubernetes
続いて、KubernetesとAIの関係性について、複数の企業が事例と共に登壇していました。
大規模なAIプラットフォームを構築するための、高性能でセキュア、かつオープンな基盤としてKubernetesがいかに重要であるかが語られました。
特に、マルチクラスタ環境でのAI推論や、GPUリソースの最適化といった具体的な技術デモが披露され、オープンソース技術とCNCFコミュニティの貢献が、企業の迅速なAI開発を支えている様子が紹介されていました。
Kubernetesネットワーキングの標準化
ネットワーキングのセッションでは、AIやHPC(ハイパフォーマンスコンピューティング)といった新しいワークロードに対応するため、Kubernetesのネットワーク機能が進化していることが紹介されました。
特に注目されたのが、DRA(Dynamic Resource Allocation)です。
これは、GPUや高性能NICといった特殊なハードウェアリソースを、より柔軟かつ標準的な方法でPodに割り当てるための新しいAPIです。
これにより、従来は独自に実装していたリソース管理の仕組みが統一され、一元的な管理が可能になることが期待されています。
クラウドネイティブの10年とこれから
AkamaiやMicrosoftの専門家からは、クラウドネイティブ開発のこれまでの10年と今後の展望が語られました。
70を超えるCNCFプロジェクトが健全に成長し、特にAIやセキュリティ分野での取り組みが加速していることが報告されました。
また、Amazonの登壇では、ブラックフライデーのような大規模イベント時に、機械学習を活用してサービスの容量計画やリスク計測をいかに行っているかが具体的に説明されていました。
単純なオートスケーリングだけでは対応しきれないトラフィックの急増に対し、全サービスを横断するチーム連携や、動的な予測に基づいたストレステストがいかに重要であるかが紹介されました。
特に面白かったセッション紹介
参加したセッションの中から、特に興味深かった3つのセッションをピックアップしてご紹介します。
In-Place Pod Resize in Kubernetes: Dynamic Resource Management Without Restarts
このセッションでは、Podを再起動せずにCPUやメモリのリソース量を動的に変更する「In-Place Pod Resize」機能が紹介されました。
Javaアプリケーションのように、起動時に多くのリソースを必要とし、安定稼働後は消費リソースが減少するワークロードは少なくありません。
従来、このような場合でも起動時の最大値に合わせてリソースを確保し続ける必要があり、コストやリソース効率の面で課題がありました。
この新機能により、Podを稼働させたままコマンドなどでリソース要求(requests)や上限(limits)を動的に変更できます。
デモでは、リソース変更が即座にPodに反映され、Podのステータスでリサイズ状況(など)が確認できる様子が実演されました。
また、を設定することで、「CPU変更時は再起動不要だが、メモリ変更時は再起動する」といった細かい制御も可能です。
将来的には、ワークロードの実際の使用量に基づいてリソースを自動調整するVertical Pod Autoscaler(VPA)も、このIn-Placeリサイズに対応し、より無停止に近い形でのリソース最適化が実現される見込みです。
リソース管理の柔軟性が向上し、コスト最適化に大きく貢献することが期待される非常に楽しみな機能です。
Securing Data Applications at Pinterest With Finer Grained Access Control on Kubernetes
Pinterest社が、マルチテナントのKubernetes環境で、どのようにしてPod単位のきめ細かなアクセス制御を実現しているかを紹介するセッションでした。
AWSのIMDS(Instance Metadata Service)は、通常ノード単位でIAMロールを割り当てるため、1つのノード上で複数のテナントのPodが稼働する環境では、権限分離が難しいという課題があります。
Pinterest社は、この課題を解決するために独自の認証情報払い出しサービスを開発しました。
その仕組みは、PodからのAWSリソースへのアクセスリクエストをでフックし、各ノードで稼働するというエージェントに転送します。
はPodのメタデータを基に、中央のセキュリティサービスに問い合わせ、そのPodが必要とする最小限の権限に絞られた一時的な認証情報(STSトークン)を取得して払い出します。
このアーキテクチャにより、「必要最小限の権限」の原則を徹底し、Podやジョブ単位での動的なアクセス管理を実現しています。
標準機能に頼るだけでなく、自社のセキュリティ要件に合わせて堅牢な基盤を自作するアプローチは、非常に参考になりました。
Turbocharging Argo CD: Replacing Redis With Dragonfly for Better Performance and Lower Bills
Argo CDのメンテナーも務めるAcuity社のエンジニアが、Argo CDのパフォーマンスとコストを改善するために、キャッシュとして利用しているRedisを「Dragonfly」に置き換えた事例を発表しました。
Argo CDでは、UIの応答速度向上などのためにRedisをキャッシュとして利用していますが、高可用性(HA)構成にすると多くのPodやコンテナが必要となり、リソース消費が大きいという課題がありました。
そこで、Redisと互換性のある新しいインメモリキャッシュであるDragonflyに置き換えることで、Pod数を約30%、コンテナ数を約40%削減できたと報告されました。
ある顧客事例では、メモリ使用率が9%から3%に劇的に減少し、コスト削減にも繋がったとのことです。
DragonflyはすでにGA(General Availability)となっており、発表者も「本番環境で利用しており、Production readyだ」と強調していました。
Argo CDは弊社でも多くのサービスで利用しているため、この事例はすぐにでも活かせそうな非常に有益な情報でした。
まとめ
4日間にわたるKubeConへの参加は、新しい技術トレンドを吸収する絶好の機会となりました。
特に、プラットフォームエンジニアリング、AI基盤、そしてそれらを支えるセキュリティやコスト最適化といったテーマは、今後の技術選定やシステム設計において重要な指針となることを実感しました。
また、各セッションで語られる熱意や、世界中のエンジニアとの交流を通じて、技術に対するモチベーションが非常に高まりました。
ここで得た知識や視野を活かし、自社のサービスが抱える課題の発見や、それに対する新たな提案に繋げていきたいと考えています。
SRG では一緒に働く仲間を募集しています。
ご興味ありましたらぜひこちらからご連絡ください。
