Data + AI Summit 2026 の「SUMMIT LIVE」ステージ。6万人超がオンラインで見守るなか、Unity Catalog のプロダクトチームのひとつを率いる Raj Gossain 氏が、対談形式のセッション 「UC Governance, Enterprise Context, and Ontology」 に登壇した。問いはシンプルだ——なぜいまオントロジーなのか。そして、そこにDatabricksはどう噛み合うのか。

ハルシネーションの正体は「文脈の欠如」だった
まず土台から。Unity Catalog は、Databricks におけるデータとAIのための統合ガバナンス層だ。セキュリティ、リネージ、ガバナンス、監査を一手に引き受け、多くの顧客がLakehouseへ移行できた大きな理由でもある。そこにいま、セマンティクス(意味)の能力が加わった。
なぜか。Raj 氏は単刀直入だった。「LLMの最大の課題は、あなたのビジネスの文脈を持っていないと幻覚を起こすこと。信用できない答えを平然と返す」。だからこそ、Databricksに知識(コンテキスト)の層を組み込むことが不可欠だった——それが Genieオントロジーと Unity Catalog セマンティクスである。
“ビジネスの真実”をUnity Catalogに置く——ドメインとビジネス用語集
Unity Catalog セマンティクスは、まずドメインで資産を事業部・機能・地域などの軸に整理する。そしていま追加されつつあるのが、ビジネス用語集(business glossary)だ。
これは、組織にとっての“ground truth(真実の源)”を定義する仕組みである。「解約(churn)顧客」とは何を指すのか。航空機製造業なら「航空機エンジン」とは何か。こうした業務用語の定義は、これまでUnity Catalogには存在せず、Genieは推測するしかなかった。用語集という真実の源を置くことで、Genieオントロジーは「データがどう組織され、社内でどんな言葉が使われているか」を正しく踏まえられるようになる。
作るオントロジーから、育つオントロジーへ
ここが、このセッションの核心だ。オントロジーは、図書館情報学やナレッジマネジメントの専門家が25年以上前から扱ってきた技術だが、レガシーなオントロジーは陳腐化する。ドリフトし、古び、人手でキュレートできる知識には限界がある。
Genieオントロジーの発想は逆だ。Unity Catalog にあるすべてと、Databricksが見えるすべてのソースから自動生成され、常に最新の知識グラフとして生き続ける。Lakehouse上の活動——消費パターン、投げられたクエリ、学習されるMLモデル、作成・参照される成果物——を絶えず監視し、自分を更新する。しかも アクセス権限に追従し、ユーザー別だ。あなたがアクセスできるデータと私がアクセスできるデータは違う。ならば、あなたに見えるグラフのサブセットと、私に見えるそれも違っていてしかるべき——その思想が、エージェント時代のオントロジーを“最先端”たらしめている、とRaj 氏は語る。
知識グラフは「人」も結ぶ——OntoRankが信頼を格付けする
Genieオントロジーが結ぶのは、データ資産だけではない。ダッシュボードやGenieスペース、ノートブックといったコード資産、さらには人——誰がどのトピックの権威か——までを関係づける。「Raj はこの5つのトピックの権威だ」とオントロジーが理解していれば、その人が書いたダッシュボードは、関連する問いに対する信頼できる信号になる。
この序列づけを担うのが OntoRank(オントロジー・ランク)だ。個人の権威・信頼の信号、ダッシュボードの人気度、用語集や指標の権威、そして人やエージェントが付与できる認証(certification)タグ——いわば「これは信頼してよい」という“お墨付き”——を束ねてランクづけする。誰かが退職した、製品Aが製品Bに置き換わった——そんな変化はデータ基盤やパイプラインに現れ、Genieオントロジーはそれを察知して継続的に再ランクづけする。結果として、LLMは全部を探索せず、信頼できる・認証済みの資産に絞って答えられる。トークン効率の良さは、顧客が最も気にする点のひとつでもある。
Databricksの外にある知識も——Slack・Teams・SharePoint
文脈は、構造化データだけに宿るわけではない。Genieチームは、非構造の業務知識へのコネクタも育てている。Slackチャンネル、Teams、SharePoint、Confluence——Databricksの外に散らばる企業知識にも、Genieオントロジーは可視性を持つ。だから、単なる「文書を探す検索エンジン」ではなく、いま起きていることを踏まえて答えを計算できる。
そして、人手のキュレーションが無駄になるわけでもない。丁寧に作り込んだGenieスペースは、オントロジーにとって権威ある知識源になり、Unity Catalog のメトリックビューはビジネスKPIの真実の源になる。人がステュワードとして整える営みと、Genieオントロジーが自動で見渡す力——その好循環が、Genie One(個別に作り込むGenieスペースとは別の、Lakehouse全体に直接質問できる対話エージェント)を強くする。
「外付け」ではなく「地続き」——namespaceの壁を越え、データ基盤と一体で
ここで、長く尾を引いてきた悩みがほどける。従来、Genieスペースのようなnamespace(名前空間)に閉じた知識は「この空間の中でしか効かない。どうやって外の全体へ広げるのか」が課題だった——とくに欧州の顧客から繰り返し挙がった問いだという。Genieオントロジーは特定のnamespaceに縛られず、空間をまたいで知識を結び直す。「自分の領域でやったことを、どう全体に晒すか」という問いに、これが答えになる。
鍵は、このオントロジーがデータ基盤と地続きである点だ。外付け(bolt-on)の知識グラフではなく、オントロジー構築の土台を担う GenieとGenie Code が、Lakehouse上のすべての活動を見ている——新しく取り込まれたデータ、重要パイプラインのスキーマ変更、新規に作られた成果物まで。だから何かが変われば、Genieオントロジーはそれを察知して自分を更新する。「外付けのオントロジー」と「基盤に組み込まれたオントロジー」の差は、そのまま鮮度と信頼性の差になる。エージェントが頼る文脈が、いつでも“いまの会社”を映していられる理由がここにある。
押さえどころ
Raj 氏が6万人超に向けて残した一文は、こうだ。「Genieオントロジーが、あなたの代わりに働く」。
- ハルシネーションの根因は文脈の欠如。Unity Catalog セマンティクスとGenieオントロジーが、その文脈を与える。
- ビジネス用語集で“真実の源”を定義し、GenieオントロジーはLakehouseの活動から自動生成・常時更新・権限に追従・ユーザー別に育つ。
- 知識グラフはデータ・コード・人を結び、OntoRankと認証タグで信頼をランク付けする。
- 始め方は簡単。自動ID管理(Microsoft Entra ID や Okta などのIDプロバイダ)を入れ、Genie One を有効化してユーザーに開放する。指標とUC用語集で文脈を足せば、さらに賢くなる。
なお、本セッションが推すのはプラットフォームに内蔵されたGenieオントロジーである。これは、別記事で取り上げた、プラットフォーム非依存のナレッジグラフ基盤ベンダーStardogの「オントロジーはデータ基盤から抽象化されているべき」という主張とは、ちょうど対になる立場だ。プラットフォーム密結合の自動化を取るか、プラットフォーム非依存の標準を取るか——“エージェントに文脈を渡す”という同じ目的に、2つの設計思想が並走している。

