オントロジーは「作る」ものから「育つ」ものへ——Unity CatalogとGenieが、組織の文脈をエージェントに渡す

2026年6月21日

Data + AI Summit 2026 の「SUMMIT LIVE」ステージ。6万人超がオンラインで見守るなか、Unity Catalog のプロダクトチームのひとつを率いる Raj Gossain 氏が、対談形式のセッション 「UC Governance, Enterprise Context, and Ontology」 に登壇した。問いはシンプルだ——なぜいまオントロジーなのか。そして、そこにDatabricksはどう噛み合うのか。

Data + AI Summit 2026の「SUMMIT LIVE」デスク。ホスト2名とUnity CatalogのプロダクトリーダーRaj Gossain氏（右）が、ガバナンスとオントロジーをテーマに対談した

ハルシネーションの正体は「文脈の欠如」だった

まず土台から。Unity Catalog は、Databricks におけるデータとAIのための統合ガバナンス層だ。セキュリティ、リネージ、ガバナンス、監査を一手に引き受け、多くの顧客がLakehouseへ移行できた大きな理由でもある。そこにいま、セマンティクス（意味）の能力が加わった。

なぜか。Raj 氏は単刀直入だった。「LLMの最大の課題は、あなたのビジネスの文脈を持っていないと幻覚を起こすこと。信用できない答えを平然と返す」。だからこそ、Databricksに知識（コンテキスト）の層を組み込むことが不可欠だった——それが Genieオントロジーと Unity Catalog セマンティクスである。

“ビジネスの真実”をUnity Catalogに置く——ドメインとビジネス用語集

Unity Catalog セマンティクスは、まずドメインで資産を事業部・機能・地域などの軸に整理する。そしていま追加されつつあるのが、ビジネス用語集（business glossary）だ。

これは、組織にとっての“ground truth（真実の源）”を定義する仕組みである。「解約（churn）顧客」とは何を指すのか。航空機製造業なら「航空機エンジン」とは何か。こうした業務用語の定義は、これまでUnity Catalogには存在せず、Genieは推測するしかなかった。用語集という真実の源を置くことで、Genieオントロジーは「データがどう組織され、社内でどんな言葉が使われているか」を正しく踏まえられるようになる。

作るオントロジーから、育つオントロジーへ

ここが、このセッションの核心だ。オントロジーは、図書館情報学やナレッジマネジメントの専門家が25年以上前から扱ってきた技術だが、レガシーなオントロジーは陳腐化する。ドリフトし、古び、人手でキュレートできる知識には限界がある。

Genieオントロジーの発想は逆だ。Unity Catalog にあるすべてと、Databricksが見えるすべてのソースから自動生成され、常に最新の知識グラフとして生き続ける。Lakehouse上の活動——消費パターン、投げられたクエリ、学習されるMLモデル、作成・参照される成果物——を絶えず監視し、自分を更新する。しかも アクセス権限に追従し、ユーザー別だ。あなたがアクセスできるデータと私がアクセスできるデータは違う。ならば、あなたに見えるグラフのサブセットと、私に見えるそれも違っていてしかるべき——その思想が、エージェント時代のオントロジーを“最先端”たらしめている、とRaj 氏は語る。

知識グラフは「人」も結ぶ——OntoRankが信頼を格付けする

Genieオントロジーが結ぶのは、データ資産だけではない。ダッシュボードやGenieスペース、ノートブックといったコード資産、さらには人——誰がどのトピックの権威か——までを関係づける。「Raj はこの5つのトピックの権威だ」とオントロジーが理解していれば、その人が書いたダッシュボードは、関連する問いに対する信頼できる信号になる。

この序列づけを担うのが OntoRank（オントロジー・ランク）だ。個人の権威・信頼の信号、ダッシュボードの人気度、用語集や指標の権威、そして人やエージェントが付与できる認証（certification）タグ——いわば「これは信頼してよい」という“お墨付き”——を束ねてランクづけする。誰かが退職した、製品Aが製品Bに置き換わった——そんな変化はデータ基盤やパイプラインに現れ、Genieオントロジーはそれを察知して継続的に再ランクづけする。結果として、LLMは全部を探索せず、信頼できる・認証済みの資産に絞って答えられる。トークン効率の良さは、顧客が最も気にする点のひとつでもある。

Databricksの外にある知識も——Slack・Teams・SharePoint

文脈は、構造化データだけに宿るわけではない。Genieチームは、非構造の業務知識へのコネクタも育てている。Slackチャンネル、Teams、SharePoint、Confluence——Databricksの外に散らばる企業知識にも、Genieオントロジーは可視性を持つ。だから、単なる「文書を探す検索エンジン」ではなく、いま起きていることを踏まえて答えを計算できる。

そして、人手のキュレーションが無駄になるわけでもない。丁寧に作り込んだGenieスペースは、オントロジーにとって権威ある知識源になり、Unity Catalog のメトリックビューはビジネスKPIの真実の源になる。人がステュワードとして整える営みと、Genieオントロジーが自動で見渡す力——その好循環が、Genie One（個別に作り込むGenieスペースとは別の、Lakehouse全体に直接質問できる対話エージェント）を強くする。

「外付け」ではなく「地続き」——namespaceの壁を越え、データ基盤と一体で

ここで、長く尾を引いてきた悩みがほどける。従来、Genieスペースのようなnamespace（名前空間）に閉じた知識は「この空間の中でしか効かない。どうやって外の全体へ広げるのか」が課題だった——とくに欧州の顧客から繰り返し挙がった問いだという。Genieオントロジーは特定のnamespaceに縛られず、空間をまたいで知識を結び直す。「自分の領域でやったことを、どう全体に晒すか」という問いに、これが答えになる。

鍵は、このオントロジーがデータ基盤と地続きである点だ。外付け（bolt-on）の知識グラフではなく、オントロジー構築の土台を担う GenieとGenie Code が、Lakehouse上のすべての活動を見ている——新しく取り込まれたデータ、重要パイプラインのスキーマ変更、新規に作られた成果物まで。だから何かが変われば、Genieオントロジーはそれを察知して自分を更新する。「外付けのオントロジー」と「基盤に組み込まれたオントロジー」の差は、そのまま鮮度と信頼性の差になる。エージェントが頼る文脈が、いつでも“いまの会社”を映していられる理由がここにある。

押さえどころ

Raj 氏が6万人超に向けて残した一文は、こうだ。「Genieオントロジーが、あなたの代わりに働く」。

ハルシネーションの根因は文脈の欠如。Unity Catalog セマンティクスとGenieオントロジーが、その文脈を与える。
ビジネス用語集で“真実の源”を定義し、GenieオントロジーはLakehouseの活動から自動生成・常時更新・権限に追従・ユーザー別に育つ。
知識グラフはデータ・コード・人を結び、OntoRankと認証タグで信頼をランク付けする。
始め方は簡単。自動ID管理（Microsoft Entra ID や Okta などのIDプロバイダ）を入れ、Genie One を有効化してユーザーに開放する。指標とUC用語集で文脈を足せば、さらに賢くなる。

なお、本セッションが推すのはプラットフォームに内蔵されたGenieオントロジーである。これは、別記事で取り上げた、プラットフォーム非依存のナレッジグラフ基盤ベンダーStardogの「オントロジーはデータ基盤から抽象化されているべき」という主張とは、ちょうど対になる立場だ。プラットフォーム密結合の自動化を取るか、プラットフォーム非依存の標準を取るか——“エージェントに文脈を渡す”という同じ目的に、2つの設計思想が並走している。

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

山窪智春