AIエージェントのセキュリティ設計｜Zero Trust for AI Agents

X で毎日 Claude Code 情報を配信してるコムテです

Anthropic が「Zero Trust for AI Agents」っていう全34ページの公式 eBook を出したね

企業が AI エージェントを安全に動かすためのセキュリティフレームワーク

これは、自律的に動くAIエージェントを企業に導入する際、「どのようにセキュリティを担保すべきか」をまとめた実践的なガイドラインですな

ゼロトラスト（何も信頼せず全部検証する、を前提にした設計思想）を、AI エージェントにどう当てはめるかを実装レベルまで落とし込んだガイドになってる

一次情報これな

8フェーズの実装ワークフローの随所に「これは Claude Code がこう対応してる」っていう Pro-tip が差し込まれてる

つまり普段ワイらが便利機能だと思って使ってる権限承認とかサンドボックスが、そのまま企業向けゼロトラスト実装として公式に名指しされてたんよね

しかし、Zero Trust for AI Agents は長い。おまけに英語

この記事では eBook のエッセンスを日本語で構造化しつつ、8フェーズと Claude Code 機能の対応表にまとめる。全訳やなくて骨格の抽出

結論

AI エージェントを企業に入れるときのセキュリティの型は、もう公式に固まりつつある。それがゼロトラスト

そして驚くのは、その実装の大半を Claude Code が標準機能でカバーしてること。8フェーズのワークフローほぼ全部に、対応する Claude Code 機能が紐づいてた

普段の便利機能を企業セキュリティの視点で読み直すといいかも。それがこの記事で渡したい一番の価値

なぜ今ゼロトラストなのか

AIエージェントの登場によって以下のリスクが激増してる

マシンスピードでの被害: AIが人間の承認なしに連続してツール（Web検索、API、データベース等）を叩くため、乗っ取られた際の被害スピードが早すぎる
権限の悪用: AIは正当な権限を与えられて動くため、従来のアクセス制御では「AIが正しい指示で動いているのか、悪意ある指示で動かされているのか」を区別できない
攻撃の低コスト化: 攻撃者側もAIを使うため、脆弱性を突く攻撃を24時間、ほぼゼロコストで大量に仕掛けてくる

これに対抗するため、「誰も信用しない、すべてを検証する、すでに侵入されていると仮定する」というゼロトラストの原則が不可欠になる

フロンティア AI のせいで、脆弱性が見つかってから悪用されるまでの時間が数ヶ月から数時間に縮んだ。守る側も攻める側も AI で加速してて、境界の内側は安全っていう昔ながらの防御はもう追いつかない

そこで効くのがゼロトラスト。3つの原則でできてる

何も信頼せず常に検証する
侵害は既に起きていると仮定する
最小権限のみ付与する

ゼロトラスト自体は新しい概念ちゃう。米英豪の政府が既にガイダンスを出してて、米国は2027年までに全連邦機関へ義務化する流れ

HIPAA や GDPR、EU AI Act みたいな規制ともきれいに整合する。規制業界ほど効いてくる話やね

ただ AI エージェントに当てはめるには形を変える必要がある。eBook はエージェント特有の新要件を4つ挙げてた

暗号学的に根拠のあるアイデンティティ
タスク毎にスコープした権限
ポイズニング耐性のあるメモリ
自律攻撃の速度で動く防御運用

エージェントは何が違うのか

AIエージェントは、従来のソフトウェアとは異なる以下のような特有の攻撃対象（アタックサーフェス）を持ってる

従来のソフトは決められたロジックを実行するだけ。エージェントは目標を解釈してツールを選び、複数ステップを自律的に実行する

この自律性のぶんだけ、新しい攻撃面が生まれる。eBook が整理してた脅威のタクソノミーがこれ

プロンプトインジェクション 直接（ユーザー入力）と間接（Webやメール等の外部データ）。LLM は情報と実行命令を確実に区別できない、っていうのが根っこの問題
ツールポイズニング MCP（AIと外部ツールをつなぐ規格）の記述子やメタデータを汚染する。正規バイナリ経由やからホスト監視に映らへんのがいやらしい
アイデンティティ・権限濫用 権限を絞らず継承させたり、前のセッションでキャッシュした秘密を悪用したり
メモリポイズニング 一度汚染されたコンテキストが、その後のセッションずっと攻撃者の目的を実行し続ける
サプライチェーン 汚染されたモデルの重みや、悪性 MCP サーバ

ここで覚えておきたい概念が2つある

ひとつは blast radius（爆発半径、侵害されたときの被害範囲）。読み取り専用なら小さいし、クラウド管理権限なら甚大。投資はこの露出に見合わせる

もうひとつは least agency（最小エージェンシー）。OWASP が提唱した最小権限の拡張版で、各ツールが何を・どれだけの頻度で・どこでできるかまで絞り込む考え方だね

いちばん刺さった判断軸

全コントロール共通の設計テスト

問いはひとつ

この対策は攻撃を不可能にするのか、それともただ面倒にするだけか

自律攻撃者は無限の根気と、ほぼゼロの試行コストを持ってる。だからレート制限とか追加の踏み台ホップとか SMS の二要素認証みたいな「面倒なだけ」の対策は、スケールで殴られて崩れる

逆に生き残るのは、ハードウェアに紐付けた資格情報、数分で失効する短命トークン、暗号アイデンティティ、そもそも存在しないネットワーク経路

迷ったら、流量を絞るコントロールより能力そのものを奪うコントロールを選ぶ。この視点は AI 関係なく普通のセキュリティ設計にも効く考え方やと思う

本題 8フェーズ × Claude Code 対応表

ここが eBook の核心。実装ワークフローは8フェーズに分かれてて、各フェーズの末尾に Claude Code の対応機能が名指しで載ってる

フェーズ	要点	対応する Claude Code 機能
1 要件定義	規制要件・運用目標・制約を定義して関係者を合意	該当なし
2 サプライチェーン管理	AI-BOM、OpenSSF Scorecard、依存ツリー監査、暗号署名	製品機能ではなく実践寄り。MCP サーバを自前ホストして検証後に自己署名。依存の重複監査は Claude 等の LLM に lockfile を読ませる
3 エージェント境界定義	一意 ID、承認/禁止アクションの明文化、blast radius 特定	一意の `session.id` と `user.account_uuid`・`organization.id` をテレメトリに付与。`settings.json` で粒度の細かいアクセス制御、`ask` パラメータ、hooks
4 プロンプトインジェクション防御	入力隔離、constitutional classifiers、攻撃面の縮小	input sanitization、command blocklist（curl/wget 等を既定遮断）、isolated context windows、network request approval
5 ツールアクセス保護	ツール許可リスト、能力制限、パラメータ検証、サンドボックス	`settings.json` でツール単位の権限制御、PreToolUse hook で引数検証、sandboxing（FS・ネットワーク・OS レベル隔離）
6 認証情報保護	短命トークン、ハードウェア紐付け、JIT、ABAC	資格情報を OS の資格情報ストアに保存し `apiKeyHelper` で外部 Vault 連携。OAuth 2.0 自動リフレッシュ。`ask` 権限はセッション終了で失効。サブエージェントは隔離コンテキストで親履歴を見ない
7 メモリ保護	メモリ隔離、コンテキスト整合性検証、保持ポリシー	セッション分離が既定。`cleanupPeriodDays` で保持期間を制御。checkpoint と rewind（Esc 2回または `/rewind`）
8 重要指標の計測	dwell time、coverage、explainability、検知速度	OpenTelemetry メトリクスと audit logging で活動を追跡。重要システムは検知1時間以内が目標

表を見てもらうと分かるけど、要件定義フェーズ以外には全フェーズに Claude Code の Pro-tip が紐づいてる（フェーズ2だけは製品機能やなく実践 Tip やけど）

deny-by-default の権限承認、サンドボックス、managed settings（組織横断ポリシーを管理者が強制してユーザーは上書きできない）、OpenTelemetry での監査。普段「便利やな」で済ませてた機能が、企業セキュリティの言葉で並べ直されると別物に見える

つまりワイが毎回 settings.json をいじって権限を絞ってるのは、ゼロトラストの言葉でいう least agency と blast radius の最小化やったわけや

段階を踏むための3ティア

eBook は実装レベルを3段階に分けてた

Foundation 最低限。ただし AI 攻撃で底が上がってて、摩擦だけの対策はもう失格扱い
Enterprise 大半の組織が目標にすべき標準
Advanced 高リスク・規制が厳しい環境向け

おもろいのは、この3つが固定じゃないこと。技術が進むにつれて Advanced が Enterprise に、Enterprise が Foundation に降りてくる前提で書かれてる

今の最低限は、すぐ底上げされる。短命トークンや暗号アイデンティティは、もう Foundation の入口要件になってる

守る側も同じ速度で動く

eBook の後半は、エージェントを守るだけやなくて、セキュリティ運用自体を攻撃者と同じ速度に上げる話やった。Agentic SOAR（セキュリティ運用を自動化・自律化する基盤）っていう考え方

要点はこんな感じ

アラートキューの先頭にモデルを置く。read-only のトリアージエージェントが一次調査して、人が本当に見るべきアラートに集中させる
原則は「インシデントの事務作業は自動化、判断は自動化しない」。封じ込めや顧客連絡みたいな判断は人間が握る
tabletop 訓練は5件同時インシデントで回す。1件想定やと AI 攻撃の桁違いの発見量に追いつけない

この「事務は自動化、判断は人間」っていう線引きは、Claude Code を業務に組み込むときの考え方とそのまま地続きだと思った

ワイの場合

TODO(human)

まとめ

AI エージェントを企業に入れるときのセキュリティの型は、もうゼロトラストで固まりつつある。そしてその実装の大半を Claude Code が標準機能でカバーしてた

一能力でも飛ばすと、攻撃者はその穴を突いてくる

eBook が最後に書いてた一言

最も有利な組織は、最先端 AI を持つ組織やない。土台が固くて AI スキャンでそもそもバグが出にくい組織、そして初日から侵害前提で設計した組織

次のアクションは、自分の settings.json を一回ゼロトラストの目で見直すこと。どのツールに deny-by-default がかかってて、どこが ask になってて、blast radius がどこまで広がってるか。普段の設定が、そのまま企業セキュリティの練習台になる

PDF - Zero Trust for Al Agents

eBook 本体は34ページで、ティア別の実装テーブルや Pro-tip が全部載ってる。一次情報を当たるのが一番早いね