DevOpsからAgent Opsへ ― AIエージェントを本番運用する実践プレイブック（Databricks「Agent Ops on Databricks」）

2026年6月21日

Databricks Data + AI Summit 2026 のセッション 「Agent Ops on Databricks, Powered by Omnigent」 の技術レポートです。登壇は Databricks の Jeanne Choo 氏（AI Forward Deployed Engineer）と Kyra Wulffert 氏（Specialist Solution Architect）。テーマは、「動くデモ」のAIエージェントを、安全・信頼でき・スケールする本番システムへどう引き上げるか。各原則をライブデモで裏づけながら、実践的なプレイブックとして提示されました。

結論を先に言うと、鍵は3つです。エージェントを DevOps/MLOpsの延長にある運用問題（Agent Ops）として捉え直すこと、ガバナンスと再利用性をもつメタハーネス Omnigent で素早く安全に変えられるようにすること、そして MLflow で評価のフライホイールを回し続けることです。本稿ではセッションの流れに沿って、技術的な要点を掘り下げます。

本番化を阻む「プロダクションギャップ」

冒頭で示されたのは、業界調査に基づく数字です。経営層の97%が「AIエージェントを導入済み」と答える一方、本番でスケールする段階に到達しているのは12%にとどまる。運用面では、89%が可観測性（オブザーバビリティ）は備えているのに、評価（eval）を回しているのは52%。エージェントを作るチームと、それを信頼して本番に出せるチームの間には大きな隔たりがあります。

登壇者の主張は明快でした。「本番化を阻んでいるのはモデルの品質ではなく、運用（オペレーション）である」。モデルは年々良くなっている。詰まっているのは、それを継続的に統治・評価・運用する仕組みの側だ、という整理です。

「プロダクションギャップ」を示すスライド。エージェント導入97%に対し本番スケール到達は12%、可観測性89%に対し評価実施は52%。「本番化を阻むのはモデル品質ではなく運用」と結論づけている

DevOps → MLOps → Agent Ops：制御ループの再発明

なぜ運用が難所になるのか。登壇者は、ソフトウェア工学の歴史をたどって説明します。

出発点は DevOps です。コードを書いてから本番に出すまでのリードタイムと、障害時の復旧時間を最小化する一連のプラクティス。バージョニング、CI/CD（継続的インテグレーション／デリバリー＝統合・配信の自動化）、自動テストゲート、継続的モニタリングという制御ループが核にあります。この制御ループを機械学習に適用したのが MLOps、エージェントに適用するのが Agent Ops だ、という位置づけです。

MLOpsのライフサイクルは、データ品質と再現性の DataOps、モデルのバージョニング・追跡・サービングの ModelOps、CI/CDと自動化の DevOps の交差点に立ちます。データエンジニアがデータを準備し、データサイエンティストがモデルを学習・評価し、MLエンジニアがパッケージしてサービングする。そしてドリフトを継続監視し、再学習でループに戻る。ここで中心となる成果物（アーティファクト）は、あくまで モデル でした。

「The MLOps Lifecycle」のスライド。学習→評価→デプロイ→データ収集→データ準備の循環を、データサイエンティスト・MLエンジニア・データエンジニアが担う。中心となる成果物はモデル

エージェンティックなシステムは、この構図を引き伸ばします。build/test/deploy/monitor というループ自体は同じでも、扱う構成要素が違う。エージェントは単なるモデルではなく、オーケストレーション・ツール呼び出し・メモリ・検索・推論を伴うシステム だからです。新しい登場人物として ソフトウェアエンジニア が加わり、モデルエンジニアリングとソフトウェアエンジニアリングの境界が曖昧になります。

具体的には、データ準備は コンテキスト検索（context retrieval） へ、評価は従来の分類メトリクスだけでなく AIジャッジ（LLMによる採点）とドメインエキスパート（SME）の関与 へと姿を変えます。さらにエージェントは現実に行動を起こすため、意思決定の各ステップをトレース・観測 し、何ができて何ができないかを ガードレール で定義する必要が出てきます。つまり「1つのモデルを学習・監視する」世界から、「1つのモデルを核とした自律システムを build/test/deploy/monitor する」世界へ移った、というわけです。

「The AgentOps Lifecycle」のスライド。MLOpsの円環に対し、コンテキスト検索やツール/関数呼び出し、評価のAIジャッジとドメインエキスパート、デプロイのAIトレーシング/モニタリングとAIガードレールが各フェーズに加わり、担い手としてソフトウェアエンジニアが併記される

エージェント特有の6つの課題

複雑さは課題を生みます。本番に到達できない「12%問題」の主因として、6つの課題が挙げられました。技術的なものが5つ、人的なものが1つです。

コントロール・フェイルセーフ・ガバナンス：従来のゲートウェイでは不十分。モデルへのアクセスは制御できても、エージェントが実行する各ステップは制御できない。必要なのは、ツール呼び出しの上に乗る 「アクション単位の制御プレーン（per-action control plane）」 で、行動の前に「許可／拒否／確認」を挟むこと。キーワードは 「緩和ではなく予防（prevent, not mitigate）」。たとえばプロンプトインジェクションでデータ持ち出しを誘導された場合、翌日ダッシュボードで気づくのではなく、起きる前にブロックする。これはランタイムのポリシーです。
信頼性と評価のギャップ：単一のモデル呼び出しならエラーは見える。だが多段のツール呼び出しでは 複合エラー が起こり、しかも サイレントエラー（自信ありげで体裁も整っているのに完全に間違っている出力）になりうる。これは「雰囲気チェック（vibe check）」では見抜けない。測定の欠如が、多くのAIプロジェクトが停滞する理由になっています。
可観測性とフィードバック：すべてのツール呼び出し、サブエージェントへの受け渡し（handoff）をトレースする。加えて、ユーザーの低評価・SMEのフラグ・AIジャッジの低スコアといった フィードバックをトレースに紐づけ、「エージェントが何をしたか」と「それを他者がどう評価したか・なぜか」を1つのオブジェクトに集約してループを閉じる。
メンテナンス：本番エージェントは複雑なUI、安全要件、耐久性、エンタープライズツールへの接続、モデル差し替えの柔軟性などを要求する。多くのチームがユースケースごとにこのパイプラインをゼロから作るため、再利用が効かず、時間とリソースの両面で高コストになる。
ビジネスコンテキストの理解：エージェントが自社の業務プロセスを知り、データカタログを把握し、「正しい数字がどこにあるか」を分かり、ブランドの言葉で話せること。これは他社にない差別化要因であり、技術的に正しいだけの汎用エージェントとの違いを生む。
ステークホルダーのアラインメント（人的課題）：本番エージェントは魅力的で、誰もが関わりたがる。ROIを気にするCEO、アクセスを気にするデータチーム、リスクを見るコンプライアンス、機能を押すPM（プロダクトマネージャ）、速い反復を求めるAIエンジニア、安定したUIを欲しがるアプリ開発者、ちゃんと動くものを求めるエンドユーザー。優先順位の異なる関係者を 最初から能動的に調整 しないと、技術ではなく人的理由でプロジェクトが止まる。

これらを放置すると 技術的負債 へと複利で膨らみます。ガバナンスがなければツール乱立・エージェント乱立（同じことをする多数の実体を誰も把握できない）、可観測性がなければデバッグ不能な不透明パイプライン、評価がなければ「たぶん動いている」という主観だけが残る。しかも非決定的なシステムでは、この負債のコストは線形では済まず、さらに大きく膨らむと指摘されました。

目指す姿：F1チームに学ぶ3つのテンポ

「では良い状態とは何か」。提示されたのは、安全制御 と 本物のチームアラインメント を両立させたソリューションです。そのモデルとして、F1チームが 3つのテンポ で動く比喩が使われました。

PER LAP（ラップ単位）：非常に速く戦術的な反復。強いガバナンスのもとで素早く変更を出す開発ループ。
PER RACE（レース単位）：戦略的な単位。本番デプロイ／リリースに対応し、強い評価フライホイールで「壊していないか」を測る。
PER SEASON（シーズン単位）：長期の視点。スプリント計画や月次のステークホルダー確認で、優先順位と戦略の方向を見直す。

そして、これを支えるフレームワークは コンポーザブル（組み合わせ可能） で、ガバナンス・トレーシング・UIの要素を 作り付け（pre-built） で備え、組織横断で「車輪の再発明」をせずに出荷できることが要件だと述べられました。

F1チームの3つのテンポになぞらえた「目指す姿」のスライド。PER LAP=ガバナンス付きの素早い変更、PER RACE=強い評価フライホイール、PER SEASON=チームアラインメント

ここから先は、ラップ／レース／シーズンの各段で必要な技術要件を、ケーススタディとライブデモで具体化していきます。

Per Lap：ガバナンス付きで素早く変える（Omnigent）

ラップ段では、強いガバナンス制御のもとで新機能を素早く出し、その機能が狙ったROIを実際に生むかをテストします。

題材は、顧客対応の サポートエージェントを持つ通信（telco）企業。従来は「ユースケースごとに1つのエージェントワークフロー」と考え、カスタマーサポート向けのマルチエージェント参照アーキテクチャをどう本番化するか、という議論でした。しかし基調講演（DatabricksのCTO Matei Zaharia 氏）でも触れられたとおり、いまやエージェントは組織のあらゆる側面に及びます。

結果として、1つのユースケースの中に複数のエージェンティックシステムが共存 します。顧客向けのマルチエージェント・サポートに加え、裏側ではデータサイエンティストが独自モデル・独自トレースで本番ログを分析し未知の障害を見つけ（Eval Analyzer）、ソフトウェアエンジニアが自社のPRガイドラインに沿った独自コーディングエージェントで新機能を作る。これらが互いにうまく連携して初めて、継続的に改善するフライホイール が回ります。

通信企業のケーススタディ図。Supervisor Agentが配下のAccount/Billing/Product/Tech Supportサブエージェント（Genie・Knowledge Assistant）に振り分け、別系統のEval Analyzerと独自コーディングエージェントが本番トレース分析と機能追加を担い、全体でフライホイールを構成する

サポートエージェント自体も単純ではありません。Supervisor が請求・テクニカルサポート・アカウント・商品の各サブエージェントへルーティングし、各サブエージェントは Genie（自然言語でデータを照会するDatabricksの機能）や Knowledge Assistant（ナレッジ検索）を介して情報を引き出します。

Omnigent：複数のエージェントを共通規格で束ねるメタハーネス

ここで登場するのが Omnigent です。複数のエージェンティックソリューションを 共通の規格 で束ねる、いわばメタハーネス（harnessを束ねる層）として位置づけられます（DatabricksはOmnigentをオープンソースとして公開しています）。中核となる考え方は、エージェントを宣言的な仕様 agent.yaml で定義する ことです。

自分のエージェント（agent.yaml）：外部公開の「Customer Support Agent」、社内向けの「MLflow Trace Analyzer」など。
作り付けのエージェント：debby（Claude + GPT）、polly（コードオーケストレーター）。
Omnigent Server：会話セッション、ポリシーストア、アーティファクト（アップロードされた資料やGoogleドキュメント等）を一元管理。内部に Agent / Session / Policy / Artifact の各ストアを持ち、ストレージは デモではSQLite、本番ではLakebase。REST API（/v1/agents、/v1/sessions）と WebSocket（/v1/hosts/{id}/tunnel） を備え、Host Registry が接続ホストを追跡してセッションをランナーへ振り分けます。
エンドユーザー向けアプリ：顧客向けサポートアプリ（Databricks App上の「Telco Chat UI」）と、社内開発者向けの Omnigent Web UI（Databricks App）。

この1枚のプラットフォームに集約することで、先述の課題に正面から答えます。メンテナンスには コンポジション（仕様を書き換えるだけでツールやMCP（Model Context Protocol／エージェントの外部ツール接続規格）、モデルやハーネスを差し替え）、ガバナンスには ランタイムポリシー、チームアラインメントには コラボレーション（ライブな会話セッションを、コピペではなくドキュメントを共有するように渡してレビューや引き継ぎを行う）で対応します。

Omnigentプラットフォームの構成図。agent.yamlで定義する自分のエージェントと作り付けのdebby/polly、Agent/Session/Policy/Artifactストアを持つOmnigent Server（SQLite/Lakebase、REST/WebSocket）、顧客向けサポートアプリとOmnigent Web UIの関係を示す

agent.yaml：サブエージェント・ツール・MCP・ガバナンスを1ファイルに

宣言的な仕様の中身を見ると、複雑なマルチエージェントが1ファイルに収まっていることが分かります。サブエージェント・ツール・MCP・ガバナンスを1ファイルにまとめ、1つのPRでレビューする という思想です。

サブエージェント：supervisor → billing・tech_support・account・product（マルチモデル構成：Claude・Llama・GPT-OSS・Qwen）
関数ツール：customer_lookup・usage_lookup・kb_search・refund_issue（Unity Catalog（Databricksの統合データガバナンス基盤）の SQL 関数）
MCPツール：Jira・outage_info（カスタムのサイドカー）。既存のエンタープライズツールを再構築なしで接続
ポリシー：ASK（refund・Jira create の前に確認）、DENY（PII＝個人を特定できる情報の出力禁止）、token budget ≤ 20 / turn（1ターンあたりのトークン上限）

customer support agent.yamlのスライド。サブエージェント（マルチモデル）、Unity Catalog SQL関数のツール、Jira等のMCPツール、ASK/DENYと1ターンあたりトークン上限のポリシーを1ファイルで宣言している

さらに、これらの agent.yaml は Databricks Asset Bundles（設定をコードとしてまとめ環境横断でデプロイする機能）によって開発・ステージング・本番の各ワークスペースへデプロイされ、リソースは Unity Catalog に「統治対象オブジェクト」として現れ、アクセス権限を設定できます。宣言的な仕様が、そのままガバナンスの単位になるわけです。

デモ：アクション単位の制御プレーン（ASK / DENY）

顧客視点のデモでは、ポリシーが実際に効く様子が示されました。「自分はどのプランか？」という単純な質問は account サブエージェントへルーティングされ、1つのツールで「Premium Unlimited（月額 $89.99）」と回答。残高や障害情報は billing サブエージェントが2つのツールで処理します。

ここで「インターネット障害が1時間続いている。エリアに障害があればJiraチケットを作って」という依頼が入ると、Jiraチケット作成の前に承認ゲートが立ち上がります。ポリシー jira_create_requires_approval が発火し、「Internet outage report – SF-East P2」という要約とともに、保留中のアクション jira_create_issue を 承認（APPROVE）／拒否（DENY） で確認させる。返金リクエストも、重要なサービスに触れるため同じ承認ゲートを通ります。

Telco Support Assistantのデモ画面。Jiraチケット作成の前にポリシーjira_create_requires_approvalが発火し、保留アクションjira_create_issueを承認/拒否で確認する「Approval Required」モーダルが表示されている

PII検知も同様です。チームごとに独自のPII検知（判定器・ルール・サードパーティ）を実装してバラバラになる代わりに、1つの共有PIIソリューションを全エージェント・全ユースケースで使い回す。顧客がクレジットカードのポリシーを尋ね、エージェントが機微データを照会しようとすると自動でフラグが立ち、データ持ち出しを未然に防いで、顧客は安全なアカウントポータルへ案内されます。まさに「緩和ではなく予防」です。

このように、複雑なマルチエージェント構成でも 1つの宣言的仕様 でツール・MCP・ポリシーを差し替えられるため、いろいろな構成を素早く試せる、というのがラップ段の主張でした。

Per Race：壊さず本番に出すための評価フライホイール（MLflow）

レース段で問われるのは、強い評価能力です。本番で何も壊さないこと、そして自動検知が難しい 未知の失敗モード を確実に掘り起こすこと。優れたeval（評価）は、失敗の緩和だけでなく、いまエンタープライズが抱える ガバナンス・コンテキスト理解・アラインメント の懸念にも効きます。

たとえば、適切なLLMジャッジとコード関数テストがあって初めて出力を信頼できます。「LLMが顧客のアカウントポリシーを勝手に生成していないか、ちゃんと account_policy ツールを呼んで信頼できる結果を返しているか」を検証する、といった具合です。さらにユーザーの嗜好が尊重されているか（コンテキスト理解）、ビジネス目標が出力に反映されているか（技術的に正しいだけでなく、心地よい顧客体験になっているか）も評価対象になります。

MLflowのフィードバックループ：5つのソース、1つのスタック

MLflowはこの領域に注力しており、プログラム的なチェックからLLMジャッジまで、多層のフィードバックループを備えます。登壇者が強調した要点は、「アプリにどう計測を仕込むか」だけでなく、「開発・CI/CD・本番の全環境で同じチェックをどう適用するか」 です。

提示された整理が「5つのソース、1つのスタック」です。

プログラム的チェック：evals/scorers.py（PII正規表現など）／Python関数
LLMジャッジ：evals/scorers.py（brand_compliance、data_privacy など）／make_judge(...)
SME（業務有識者）：MLflow Experiment UI の Traces タブ → Assessments パネル／mlflow.log_feedback()
ジャッジのアラインメント：align() を走らせるノートブック／judge.align(traces, SIMBAAlignmentOptimizer())
エンドユーザー：アプリ上の高評価/低評価ボタン／mlflow.log_feedback()（同じAPI）

5つのソースはすべて、トレース上の「MLflowアセスメント」として着地します。 データモデルは1つ、クエリ面も1つ、eval セットも1つ。種類の異なるフィードバックが同じ土台に集約される設計です。

MLflowのフィードバックループのスライド。プログラム的チェック・LLMジャッジ・SME・ジャッジのアラインメント・エンドユーザーの5ソースと、それぞれのサーフェス・APIを表にし、すべてがトレース上のアセスメントとして1つのスタックに集約されることを示す

同じevalを開発・CI/CD・本番で

宣言的な仕様を使うと、環境をまたいでevalを集中管理できます。開発でテストを定義し、誰かがPRを出すたびに同じテストをステージングで実行する。CIのゲートでは lint、unit-tests、bundle-validate（dev/staging/prod）、そして eval-gate が走り、評価スイート（ルーティング系、governance_refund／governance_jira／governance_pii などのガバナンス系、kb_citation など）を 実際のLLMジャッジで 通します。デモでは 合格率 10/10 = 100%（しきい値80%） でゲートを通過し、サマリーが eval_summary.md に書き出されました。

CI/CDのeval-gateのデモ。GitHub Actions上でlint・unit-tests・bundle-validate（dev/staging/prod）に続きeval-gateが走り、ルーティングやガバナンスの各ケースを実LLMジャッジで評価。合格率10/10（しきい値80%）でPASSしている

チェック結果は MLflow の Experiment に保存され、brand_compliance ジャッジ、data_privacy ジャッジ、response_clarity ジャッジといった個別の判定を後から監査できます。問題なければ本番デプロイをトリガーします。

本番運用：オンライン監視とオフラインのトレース分析

本番では2つのシナリオを考えます。オンライン は、事前に組んだチェックをスケジュール実行のモニタリングジョブで確実に回すもの。Databricks のノートブックで、CI/CDと同じ brand_compliance／data_privacy／response_clarity ジャッジを、本番トレースのサブセットに対して定期実行します。

もう一方の オフライン は、より深いトレース分析です。本番では1日に数万件のトレースが出るため、すべてを手で見ることはできません。目視で「データローミングのアラート設定」という、これまでテストで想定していなかった失敗の兆候を見つけたとして、それをどうスケールさせて発見するか が問題になります。

ここで、データサイエンティストやPM、ソフトウェアエンジニアが LLMによる大規模トレース分析 を使います。Omnigent Web UI 上で Claude Code（あるいは Codex、または自分の agent.yaml）に MLflow のカスタムスキルを持たせ、本番と同じワークスペースのトレースへアクセスできるよう設定する。あとは2つのプロンプトで済みます。1つ目は「どんなスキルを持っている？」（トレースの分析・取得、特定メトリクスの計算などが返る）。2つ目は「CI/CDや開発で現在カバーされていない、本番で起きている失敗は何か？」。ハーネスは dev/staging/prod とコードベースの両方にアクセスできるため、CI/CD・開発で書かれたテストと本番トレースを突き合わせ、本番でカバーできていない領域の内訳 を返します。

オフラインのトレース分析のデモ。「データローミングのアラートを設定したい」という本番トレースが表示され、customer_lookup・notification_settings・account_llm_responseのツール呼び出しと出力が確認できる。CI/CDで未カバーだった失敗モードをLLMで発見する例

こうして、データサイエンティストが Omnigent Web UI でカスタマーサポートアプリの状況を見て機能ギャップを特定し、それを独自のコーディングエージェントに渡して埋める、という 独自のフライホイール が回り始めます。

Per Season：組織で品質をスケールさせる

技術的な課題が Omnigent と MLflow でカバーされたとして、最後に残るのが人的課題です。あるユースケースで成功しても、その学びを他へ持ち越さなければ、毎回ゼロからやり直しになります。シーズン段では、品質をユースケース横断でスケールさせる組織のレイヤー を扱います。

重要なのは2点。1つは ステークホルダーのアラインメント。誰が誰で、それぞれの優先事項は何かをマッピングし、定期的にコミュニケーションを取り、エージェントに何ができて何ができないかという期待値を教育し、各人と成功指標を合意する。コミュニケーションは、最初の「教育」フェーズから、やがて指標を「報告」するフェーズへ移り、健全な組織習慣になります。

もう1つは チームの役割分担。RACI（Responsible=実行する人／Accountable=最終決定の責任者／Consulted=相談される人／Informed=報告を受ける人）の軽量なマッピングが推奨されました。Exec sponsor・PM・AIエンジニア・データ/プラットフォームエンジニア・SME・法務/セキュリティといった役割に対し、「ユースケースのスコープ」「データ/PIIの取り扱い」「評価とガードレール」「プロンプト/ツールの変更」という4つの意思決定について、R/A/C（実行・最終決定・相談）を割り当てます。プロジェクトの進行に応じて定期的に見直し（推奨は月次）、すべてを文書化することで、会議で都度ねじ込むのではなく システムの自動的な一部 にしていきます。

「Who owns what」のスライド。Exec sponsor/PM/AIエンジニア/データ・プラットフォームエンジニア/SME/法務・セキュリティの役割と関心事、および主要な意思決定に対するRACI（R/A/C）のマッピング。月次で見直すと注記されている

まとめ：The Three Ways ― DevOpsの原則をエージェント向けに再生する

セッションの締めくくりは、Omnigent と MLflow が各課題にどう答えるかを1枚にまとめた スコアカード でした。コントロール/ガバナンスには「agent.yaml のランタイム ASK/DENY/ALLOW ポリシー（検知ではなく予防）」と「ポリシー判断をトレースのスパンとして残す」、信頼性/評価ギャップには「宣言的仕様→テスト可能な単位／CI/CDの eval ゲートが回帰をブロック」と「約100トレースの失敗タクソノミー＋校正済みLLMジャッジ＋オフライン/オンライン」、可観測性/フィードバックには「すべての行動をスパン化＋ハーネス横断の可搬な計測」と「トレース＋5つのフィードバックソースを1スタックに集約」、メンテナンスには「作り付けの要素＋1つのYAMLで任意のサーフェスへ」と「バージョン管理されたプロンプト・ジャッジ・evalセット」、ビジネスコンテキスト/アラインメントには「UC SQL関数＋Genie＋Knowledge Assistant＋マルチペルソナのサーフェス」と「1つの共有トレースストア上のペルソナ別ビュー」が対応します。

スコアカードのスライド。コントロール/ガバナンス、信頼性/評価ギャップ、可観測性/フィードバック、メンテナンス、ビジネスコンテキスト/アラインメントの各課題に対し、Omnigent側とMLflow側がどう答えるかを対比した表

そして全体は、DevOpsの 「3つの道（The Three Ways）」 にマッピングされます。Flow（信頼を壊さず素早く出す：テスト・evalゲート・CI/CD・安全なロールアウト）= ラップ段、Feedback（あらゆる場所からシグナルを捕捉する：トレース・ユーザー/SME/ジャッジのフィードバック・モニタリング）= レース段、Continuous Learning（学びを複利で積む：参照アーキテクチャ・バンドル・ジャッジのアラインメント・プロンプト最適化）= シーズン段。DevOpsから借りた原則を、エージェント向けに作り直したものだ、という整理です。

「The Three Ways」のスライド。Flow（素早く出す）、Feedback（シグナルを捕捉）、Continuous Learning（学びを複利で積む）の3本柱と、それぞれの具体要素を示す

登壇者は最後に、これらの内容をまとめた書籍 「The Big Book of Agent Ops」 を執筆中で、Summit後にアーリーリリースとして公開予定だと案内してセッションを終えました。動くデモから本番運用へ。その距離を埋めるのはモデルではなく運用であり、それを アクション単位のガバナンス・全環境共通の評価・組織の役割分担 という具体に落とし込んだ、密度の高いプレイブックでした。

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

山窪智春