Data + AI Summit 2026、Day2の基調講演。Lakewatchを率いる Andrew 氏が壇上で語り始めたのは、機能ではなく「なぜ」だった。かつて国家レベルの能力を要した脆弱性の発見が、いまや適切なLLMにアクセスできる者なら誰でも、瞬時にできてしまう。攻撃の自動化は現実に起きている。守る側だけが、いまだ人間の手で戦っている。
その非対称をどう覆すのか——世界最大級のセキュリティ会議 RSAカンファレンスでの発表からわずか2か月、Databricksが「agentic security lakehouse」(エージェントを全工程に組み込んだレイクハウス型セキュリティ基盤)と呼ぶLakewatchが、取り込み・検出・調査のすべてにエージェントを差し込む仕組みを追う。
ニュースの見出しが告げる——エージェント型攻撃の大波
導入は、新聞の見出しの束だった。Anthropicの「Claude Mythos Preview」がFirefox 150に271件のセキュリティ脆弱性を発見した記事。AIが自律サイバー能力の全ベンチマークを突破したという報。「Teams of LLM Agents can Exploit Zero-Day Vulnerabilities」という論文——。
Andrew 氏はAnthropicが報告した実例を挙げた。攻撃者はClaudeにサーバー群の脆弱性探索を指示し、侵入させ、crontabの脆弱性でroot権限まで昇格させ、機微データを探させ、2億件の個人記録を持ち去った。逆エンジニアのチームが数か月から数年かけた作業が、いま一瞬で、しかも自動で進む。これが私たちの生きる世界だ。

企業はどう守ってきたか——SIEMという仕組みの限界
多くの企業はセキュリティ運用チームを抱え、3つのことをする。幅広いソースからログを中央に取り込み、悪意ある振る舞いを探すクエリ=検出ルールを書き、上がったアラートを分析官が一件ずつ調査して対処する。問題は、その道具が古いことだ。多くはSIEM(Security Information and Event Management)を使うが、これは今日の脅威の規模に向けて設計されていない。
数字が壁を物語る。週次セキュリティアラートは2020年の7.5千件から2026年に3.2万件へ膨れ上がった。1件の調査に約30分かかるとすれば、3.2万件×30分=週16,000時間。人手で回すには400人超のチームが要る計算だ。エージェント型攻撃が大規模・高速に増えれば、壁はさらに高くなる。

捨てられるデータ、そもそも見られないデータ
SIEMの限界は規模だけではない。第一に、そもそも全データを取り込めない。技術的制約と価格の問題が混じり合い、運用チームは30日より古いデータを捨て、「価値が低そうな」データをフィルタで間引く——何かを取りこぼしていないことを祈りながら。
第二に、今日のツールが取り込めず考慮すらできない一群のデータがある。LLMログ、コード、Jira、Slackのメッセージ。これらは「本人はVPNでデバッグしていただけか、それとも端末が侵害されたのか」を見極める価値ある文脈なのに、ゴミ箱と目隠しのアイコンへ流れ、SIEMに届かない。「攻撃者はこの面のどこでも攻める/守る側は見られるものしか見えない」というわけだ。

答えはビッグデータ基盤——あらゆる脅威にエージェントで対抗する
「不完全なデータ/人間対エージェント/独自データのサイロ」——既存ツールではこの3つに勝ち目がない。だからDatabricksはLakewatchを作った。Databricksプラットフォーム上に構築され、データはすべてオープンフォーマットで安価に取り込める。その上にUnity Catalogでアクセスを統制し、Agent BricksとGenieで手作業のワークフローを自動化、仕上げにセキュリティチームが慣れたUIで提供する。
効くのは、SIEMの3工程すべてにエージェントを差し込む設計だ。取り込み(Ingest)ではエージェントがETL(抽出・変換・格納)と正規化を当て、スキーマ変更時には取り込みパイプラインを自動修正する。検出(Detect)ではエージェントが検出ルール作成を助ける。調査(Investigate)ではエージェントが自動でインシデントを調べ、アナリストには「完成したケース」が提示される——正しい作業と推奨だったかを検証するだけでいい。

数週間が数分になる——Genieが「Storm-2460」の検出を自分で書く
テックリードの Michael Anderson 氏のデモ。Lakewatchは数十種のセキュリティ特化コネクタでCrowdStrikeやAkamai WAF(Webアプリ向けファイアウォール)、Slack Audit Logなどを100分ごとに取り込み、OCSF(Open Cybersecurity Schema Framework)へ正規化する。RSAカンファレンス発表以降の新機能として、正規化パイプラインを丸ごと構築するGenie駆動の自動化が加わった。Goldテーブルに正規化済みデータが乗れば、複数クラウド・複数ベンダーの異種データでも検出を一度書けば均一に調査できる。
圧巻は検出ルールの自動作成だ。従来、脅威を調べ検出を作り検証するこの作業は数日から数週間を要した。Michael 氏はGenieに「Please research and write me a detection for Storm-2460」と指示するだけ(Storm-2460は、ランサムウェアRansomEXXを使う既知の攻撃キャンペーンの呼称)。Genieは調査エージェントを起動してWebで記事やCVE(公開脆弱性の共通識別子)を探す一方、自分のパイプライン(process_activity等のOCSFテーブル)を読み、両者を突き合わせる。検出SQLを過去24時間と過去30日で検証し、誤検知ゼロで検証済みの検出を数分で仕上げた。結果は「Storm-2460(RansomEXX)攻撃チェーン検出」。certutilによるペイロード配送(T1140)、LSASS資格情報ダンプ(T1003.001)、RansomEXX実行(T1486)など7段階を、攻撃手法の標準分類体系MITRE ATT&CK(T番号は個々の攻撃技法のID)でタグ付けし、数千のルールと並べて管理できる形にした。

SOCが見送るシグナルを追い切る——ソースコードのバックドアを暴く
検出だけではない。セキュリティケース一覧には、Genieがバックグラウンドで調査済みのケースに星印が付く。WAFのレート制限急増(IP 70.39.165.194)では、Genieが関連ケースを探し、脅威インテリジェンスで悪性IPかを照合し、境界を越えた侵入の痕跡まで調べ、一通りのレポートを作り終えていた。アナリストが開く頃には定型のランブックは済んでいる。
真価が出たのはGenie未調査のInformationalケース——「不審なAPIリクエスト」だ。低信頼度のシグナルで、週に数万件のアラートを浴びるSOC(セキュリティ運用センター)には調べる時間がない。だがGenieにはある。readContextパラメータがベースラインから外れている点に着目し、エンドポイントのソースコードを辿り、capsule.goの271〜275行目に重大な発見をする。readContextが特定値59bcc3ad6775562f845953cf01624225のとき、アクセス制御をすべてスキップして復号鍵を直接返す——ハードコードされたバックドアだ。
Genieは調査を広げ、これが2026-03-11にAndrei Volkovがコミットしたこと、不審リクエストと同日であること、変更を正当化するJiraチケットが一つもないことを突き止める。実害も特定する——同日、IP 34.96.44.227(Google Cloud, ASN 15169)からantimatter/python-client/2.0.4でアクセスがあり、HTTP 200で約190KBの生の復号鍵が返っていた。Genieの推奨は「CRITICALへエスカレーション、TRUE_POSITIVEとして扱う」。「私のインフラを隅々まで調べる能力が、SOCチームの人数に縛られなくなった」——Michael 氏はこれを「セキュリティ史の転換点」と呼んだ。

セキュリティとデータが組む——Adobeの実績とPanther買収
数か月前に立ち上げたばかりのLakewatchには、すでに名だたる顧客がいる。Adobeはペタバイト級のテレメトリをレガシーSIEMでは扱いきれず、Databricksへ。Security LakehouseとLakewatchでOCSFに正規化し、SQL/PySpark/MLで検出を回す。成果は日次14,000クエリ・成功率97%、20チーム300ユーザー、21PBのセキュリティログ。従来は発見不可能だった脅威を見つけられるようになった。
結論はシンプルだ。「今日の脅威に立ち向かう唯一の道は、セキュリティチームとデータチームが協働すること」。そして前日 Ali 氏が発表した通り、Databricksはサイバーセキュリティ企業Pantherの買収に合意した。Panther創業者兼CEOの Jack 氏は、Airbnbで検出・対応エンジニアリングを率いた経験から「エージェントがSOCの中心で動く」パラダイムを一から構想し、コード生成からアラートの端から端までのトリアージへ押し進めてきたと語った(顧客にCoinbase、Docker、Blockなど)。Databricksのデータ基盤とPantherのアプリケーション側の強み——両社の補完性が、Lakewatchを後押しする。

The Agentic Data Foundation——文脈・制御・コスト・選択
締めくくりで、Ali Ghodsi 氏が2日間を一枚に束ねた。「素晴らしいAIはあるが、それに私たちの文脈をすべて与えねばならない」——その文脈をデータと統制からAIへ届けるのが、Databricks Data + AIプラットフォームだ。最下層のOpen Infrastructure(Delta Lake/Iceberg)の上に、Agentic Data(Lakeflow/Lakehouse/Lakebase)、Unified Governance(Unity Catalog/Unity AI Gateway)、Agentic Work(GenieやAgent Bricks、Omnigent、Genie Ontology)が積み上がり、最上段のAgentic AppsにApps/Lakewatch/CustomerLakeが並ぶ。
貫くキーワードはContext. Control. Cost. Choice.。オープンソースという「選択」、コストとガバナンスの「制御」、Genie Ontologyによる「文脈」。「あらゆるデータ・あらゆるモデル・あらゆるハーネス、クラウドロックインなし」——Lakewatchの「データはオープンフォーマットでどこからでも積める」という思想は、このプラットフォーム全体の思想とそのまま重なっていた。

押さえどころ
Lakewatchが突きつけたのは、攻守の非対称という現実と、それを「データ基盤+エージェント」で覆すという賭けだった。
- 脅威の前提が変わった。週次アラートは2020年の7.5千件から2026年に3.2万件へ。人手では週16,000時間・400人超が必要で、レガシーSIEMでは勝ち目がない。
- Lakewatchはオープンなagentic security lakehouse。Databricks上にオープンフォーマットで全データを安価に取り込み、Unity Catalogで統制、Agent BricksとGenieで自動化。捨てられていたLLMログ・コード・Jira・Slackも文脈に使える。
- 取り込み・検出・調査の全工程にエージェント。OCSF正規化はGenie駆動で自動構築。検出はStorm-2460の例で「数週間→数分・誤検知ゼロ」へ。調査はSOCが見送る低信頼度シグナルからソースコードのバックドアと実害まで自律的に暴いた。
- セキュリティ×データの協働が前提。Adobeは21PB・日次14,000クエリ・成功率97%で稼働。DatabricksはPantherを買収し、エージェント中心のSOCへ踏み込む。
- 全体はThe Agentic Data Foundation——Context. Control. Cost. Choice. の上にLakewatchが座る。
「人間がエージェントと殴り合う」非対称を、守る側にもエージェントを置いて埋める。Lakewatchは、その一手だ。

