Databricks Data + AI SUMMIT 2025「Unity Catalogをビジネス向けに拡張」(demoあり)

Unity Catalogをビジネスユーザー向けに拡張 顧客の声 「すべてのユーザーが利用でき、かつ自社ビジネスを理解してくれる たったひとつのカタログ を作ってほしい」

目次

Unity Catalogをビジネスユーザー向けに拡張

Matai氏は、続いて、Unity Catalogの二つ目のポイント、ビジネスコンテキストについて説明しました。ビジネスとデータプラットフォームがプラットフォームがサイロ化していることが大きな問題であり、その課題を解決すべく、3つの新機能について発表されました。

Matai氏「Unity Catalogをリリースした直後、お客様から最も多く寄せられた質問は、「すべてのビジネスコンテキストがそこに含まれ、ビジネスユーザーがこれを使ってデータを見つけられるように、参照カタログ機能も追加できますか? 」というものでした。よく考えてみると、これは実に理にかなっています。今日のデータの世界では、ビジネスとデータプラットフォームがサイロ化されていることが多いからです。」

データプラットフォーム(DWHなど)とビジネスレイヤーのあいだに横たわる課題

  • レイヤー分断による語彙のギャップ
    • DWH は スキーマ/テーブル/ビュー など技術用語中心
    • BI は メトリクス/セマンティックレイヤー/ダッシュボード 中心
    • 両者間で概念が直結せず、定義が散逸
  • ビジネスドメインの不在
    • データプラットフォーム側は「このテーブルは財務報告用」などドメイン文脈を保持しない
    • 目的別の信頼度や利用可否が明示されず、品質保証ポイントが不透明
  • 指標定義の重複・不整合
    • メトリクスが BI ツールごとに散在し、部門ごとに独自解釈
    • 財務 vs マーケ vs ML で “同じはずの数値” が一致しない
  • 最新性・信頼性の担保不足
    • 技術ユーザー主導の ETL 更新タイミングと、BI 側のキャッシュ/抽出がずれる
    • “見た目は正しいが旧バージョン” のデータで意思決定されるリスク
  • 発見性(ディスカバビリティ)の欠如
    • どのデータ資産がどのユースケースで公式・推奨かを検索できない
    • 「使ってよい/使ってはいけない」線引きが口頭やドキュメント頼り
  • ツール間ガバナンスの断片化
    • 権限制御・監査ログが DWH と BI で別管理
    • 一貫したライフサイクル管理やコンプライアンス証跡が取りづらい
  • クロスファンクショナル連携の阻害
    • 機械学習エンジニアが利用する特徴量と、財務報告の公式指標がリンクしておらず再利用不可
    • 部門横断で KGI/KPI を共有できず、意思決定スピードが低下
  • データ信頼性の主観化
    • 「どのデータがゴールドスタンダードか」の判断が担当者の経験や勘に依存
    • オンボーディングや属人化リスクが高まる

これらの課題を解決すべく、Unity Catalogはアップデート

  • Unity Catalog メトリクスが GA(一般提供)
    • プレビュー版だったセマンティックレイヤーが正式リリース
    • すべてのユーザーが同一の指標定義を共有・再利用できる
  • 新しい Discovery ビューを強化
    • キュレーション:推薦データセットやコレクションを簡単に整理
    • 認証(Certification):公式・信頼済みデータを明示し品質を保証
    • ドメイン対応:業務領域ごとに分類し、社内マーケットプレイスを実現
  • カタログ全体のデータインテリジェンス Insight を拡充
    • データ使用状況・系統・依存関係を可視化
    • AI アシスタンスがデータコンテキストを把握しやすくなるよう最適化

これらにより、ビジネス指標の一貫性・データ探索性・スマートな運用インサイトが大幅に向上し、Unity Catalog が“ビジネスと技術をつなぐ単一カタログ”として機能するようになりました。

Unity Catalog メトリクスとは?Unity Catalog内に存在するセマンティックレイヤー

Unity Catalog Metrics は、従来 BI ツールやデータマートごとに散在していたメジャー(売上、顧客数など)やディメンション(日付、店舗など)の定義を、テーブルやビューと同じ階層でカタログに格納し、SQL・Spark・外部 BI から一貫して呼び出せるようにする “カタログ内蔵セマンティックレイヤー” です。定義の書き換えはカタログ側で一度行えば全ツールに即時反映され、計算はエンジン内で最適化されるためダッシュボードも ad-hoc 分析も高性能。さらにアクセス権・認証バッジ・監査ログをメトリクス単位で集中管理できるため、部門横断で “単一の真実” を共有しつつコンプライアンスも担保します。Virgin Atlantic などの先行導入企業は、ダッシュボード、SQL、生成 AI で同じ売上指標を共有できるようになり、定義の不一致や再計算の手間が消えたと報告しています。

  • カタログ内蔵セマンティックレイヤー
    • メトリクスが Unity Catalog オブジェクトとして格納され、テーブル同様に検索・継承・バージョン管理が可能。
  • ツール横断で定義を共有
    • SQL クエリ、Spark ノートブック、Power BI/Tableau など外部 BI から同一メトリクスを呼び出し、計算ロジックの二重実装を排除。
  • エンジン内&外部 BI の双方で最適化
    • キャッシュ/プッシュダウンにより、ダッシュボードでも ad-hoc クエリでも計算性能を自動チューニング。
  • 一元ガバナンス
    • 他のカタログ資産と同様に認証バッジ、アクセス権、監査ログを集中管理。
    • 行・列レベルのポリシーも継承され、コンプライアンスを維持。
  • 使用状況の可視化
    • どのチームがどのメトリクスを何回呼んだかをトラッキングし、人気度や不要指標の廃止判断に活用。
  • 導入事例:Virgin Atlantic
    • プレビュー段階から採用し、BI ダッシュボード・SQL・生成 AI で同じ売上指標を共有。「計算ルールの解釈違いゼロ」を実現。
  • メリットまとめ
    • 指標定義の散逸防止、運用コスト削減、意思決定スピード向上、全社的なデータ文化の標準化。

Unity Catalog Discover(プレビュー版):社内マーケットプレイス

Databricksはプレビュー版「Unity Catalog Discover」を発表。社内データ資産をマーケットプレイス形式でキュレーションし、認証・タグ付け・ドメイン分類・アクセス申請を統合。さらに自動品質監視と使用状況インサイトを備え、人間とAIの両方が最新・信頼できるデータに簡単に到達できるため、データ探索の手間を大幅に削減することが可能になります。

  • キュレーション機能
    • データセットやノートブック、モデルなど任意のアセットをコレクション化
    • UI 上で“おすすめ”や部門別セットを簡単に公開
  • タグ & 認証ラベル
    • 「公式」「監査対応」「高品質」などのタグで品質や用途を明示
    • 認証済みアセットにはバッジを付与し、信頼度を可視化
  • 非推奨マーキング & 警告
    • 古い/置き換え予定アセットを Deprecated として表示
    • 既存利用者には警告を自動通知し、移行を促進
  • ドメイン分類(ビジネスコンセプト別)
    • 財務、マーケティング、製造など業務ドメインで整理
    • 関連ドキュメントや用語集リンクを添付でき、文脈を共有
  • Discover ビュー
    • テーブル名の羅列ではなく、カード式 UI で概要・品質・利用統計を一望
    • フィルター/検索で目的のデータを素早く発見
  • アクセス申請ワークフロー
    • 画面から直接リクエスト→オーナー承認→自動権限付与
    • 余計なチケット発行や手作業を削減
  • 統合ガバナンスとの連携
    • Unity Catalog の権限モデルを継承し、行・列レベル制御や監査ログと一元管理
    • データ資産ライフサイクルと利用状況をカタログ全体で可視化

これにより技術ユーザーとビジネスユーザーの双方が 「使ってよいデータ」 を迷わず発見・利用できる環境が整います。

Databricks はプラットフォーム全体に「データインテリジェンス」を組み込み、データの実際の利用状況を解析してヒトと AI の双方が“最適に使える形”で提示する仕組みを強化しました。Unity Catalog のテーブル画面では、認証バッジや自動品質監視、主要ユーザー・関連アセットの可視化など、判断と活用を加速するインサイトをリアルタイムで提供します。これにより、データが古い・信頼できない・文脈が分からないといった従来の障壁を取り除き、より安全かつ迅速な意思決定を実現します。

  • 認証バッジ
    • テーブルが公式・信頼済みかどうかを一目で判別。
  • 自動品質モニタリング(β)
    • 更新遅延や急激な行数変化などを検知し、データ陳腐化をアラート。
  • 使用状況インサイト
    • 上位ユーザー/ワークロードを表示し、利用度や影響範囲を把握。
  • 関連アセットの推奨
    • 結合頻度や系統解析から、よく組み合わせて使われるテーブル・ノートブックを提示。
  • AI アシスタンス最適化
    • 利用統計とメタデータを反映し、AI が“文脈を理解した”クエリ自動生成・回答を実現。
  • メリット
    • データ信頼性の向上、調査コスト削減、ガバナンス強化、迅速な意思決定支援。

続いて、Keegan Dubbs氏からデモの紹介がありました。

デモの内容は主に3つです。

  • Discover ページでのアセット検索
    • 新 UI でカタログ全体をカード形式でブラウズし、タグ・認証バッジ・ドメイン別フィルターを使って目的のデータを瞬時に発見。
  • ビジネスドメイン別に認定テーブルを探索
    • 「財務」「マーケティング」など業務領域をドリルダウンし、公式マーク(Certified)が付いた高品質テーブルだけを一覧表示して信頼性を担保。
  • メトリックビューで KPI を一元管理
    • 売上総利益や顧客 LTV などのビジネス指標をカタログオブジェクトとして定義・共有し、SQL/Spark/外部 BI のすべてが同じ計算ロジックを再利用。

まず、前提として、下記が設定されています。

状況

  • 大手 CPG 企業のデータアナリストとして、四半期のマーケティング キャンペーン成果を深掘りする任務。
  • Databricks Lakehouse + Unity Catalog を採用済み。Discover/Domain/Metric View が整備され、データは認証バッジと品質シグナルで管理されている。

ゴール

Discoverページを参考に、組織、信頼できる認定資産、ビジネスドメインごとのドリルダウン、そしてその影響による実際の収益をビジネスKPIに紐付けること

  • ステップ 1|Discover ページでアセット検索
    • Databricks を開き Discover ページを表示
    • “Marketing” ドメインをクリックし、✨アイコン付きでキュレーションされたダッシュボード/クエリ/テーブルを確認
  • ステップ 2|ビジネスドメイン別に認定テーブルを探索
    • Certified バッジの付いたテーブルを選択
    • 詳細パネルで説明・サンプルクエリ・データフロー図・Top Users・関連アセット・自動品質モニタリングをチェック
    • Databricks Assistant に自然言語プロンプト → 軽く SQL を実行し目的外テーブルと判断 → ★お気に入り登録し Discover へ戻る
    • ステップ 3|Metric View で KPI を一元管理
      • Discover で Metric View フィルターを適用し「Revenue by Marketing Campaign」を選択(Certified)
      • 事前定義された Measure(campaign_revenue)と Dimension(campaign_name など)を指定しクエリ実行
      • ワンクリックで可視化し、Influencer Campaign が低パフォーマンスだと判明 → チームへ共有

ステップ 1|Discover ページでアセット検索

ステップ 2|ビジネスドメイン別に認定テーブルを探索



ステップ 3|Metric View で KPI を一元管理

CTA
  • URLをコピーしました!
  • URLをコピーしました!
この記事を書いた人
目次