Databricks と GitHub の連携設定ガイド:開発から本番環境へのデプロイまで

このブログでは、Databricks と GitHub を連携させ、GitHub 上のコードを Databricks 上で簡単に管理・デプロイする手順を紹介します。Databricks と GitHub の連携を設定することで、開発から本番環境までのデプロイメントを効率的に行えるようになり、作業の生産性が大幅に向上します。

目次

はじめに

このブログでは、Databricks と GitHub を連携させ、GitHub 上のコードを Databricks 上で簡単に管理・デプロイする手順を紹介します。Databricks と GitHub の連携を設定することで、開発から本番環境までのデプロイメントを効率的に行えるようになり、作業の生産性が大幅に向上します。

Databricks の簡単な説明

Databricks は、Apache Spark ベースのデータ分析プラットフォームです。データエンジニアリング、機械学習、分析ワークフローをクラウドで簡単に実行できる環境を提供します。Databricks 上でコードを実行することで、データの処理や分析を高速で行えるため、データサイエンスのプロジェクトにおいて非常に便利なツールです。

このブログの目的

このブログでは、Databricks と GitHub を連携させる方法を説明します。これにより、GitHub 上でコードを管理しながら、Databricks 環境でコードのデプロイや実行ができるようになります。特に、以下のような場面で役立ちます:

  • GitHub リポジトリを使ったコードのバージョン管理
  • Databricks 上でのアプリケーション(Streamlit や Notebooks)のデプロイ
  • 開発環境と本番環境の切り替えを効率化

環境構築(初回のみ)

4-1. GitHub リポジトリ作成

your-organizationrepository-name リポジトリを作成。

4-2. Databricks と GitHub の連携

参考: Databricks Git 連携

  1. GitHub で Personal Access Token を発行
  2. Databricks → ユーザー設定 → Git連携 で Token を登録
  3. Databricks → ワークスペース → Git フォルダで repository-name を追加

4-3. Databricks Apps の Git デプロイ設定

参考: Databricks Apps デプロイ

注意: app.yaml はリポジトリのルート直下に配置が必要

repository-name/
├── app.yaml              ← ルート直下(Databricks Apps が参照)
├── app/
│   └── app.py
└── rag/              ← NoteBook格納フォルダ

環境ごとにアプリを2つ作成し、Gitリファレンスでブランチを指定:

  • 開発環境には、dev-app アプリを作成し、Git リファレンスとして develop ブランチを指定。このアプリは、主に開発やテストに使用

  • 本番環境には、prod-app アプリを作成し、Git リファレンスとして main ブランチを指定。実際に運用する本番環境にデプロイ

push → デプロイするだけで環境が分かれる。

日常の作業手順

5-1. 初回クローン
gh repo clone your-organization/repository-name
cd repository-name
git checkout develop
5-2. 開発作業
git pull origin develop

# ブランチ作成(任意・同じファイルを複数人で触る場合は推奨)
git checkout -b feature/xxx
5-3. ローカルで動作確認
cd app

# 環境変数を設定
export OPENAI_API_KEY=xxx
export DATABRICKS_HOST=xxx
export DATABRICKS_TOKEN=xxx

# 依存パッケージをインストール(初回のみ)
pip install -r requirements.txt

# 起動
streamlit run app.py
5-4. 開発作業
git add <対象ファイル>
git commit -m "変更内容"
git push origin develop
5-5 本番反映

GitHub 上で PR を作成(developmain)→ レビュー後マージ。

5-6. Databricks への反映

反映方法

app/ (Streamlit):Databricks Apps →「デプロイ」→「Gitから」→ ブランチ指定

rag/ (Notebook):Databricks Git フォルダ → Pull

  • app/ については Databricks Apps が Git から直接デプロイするので、ワークスペースに Git フォルダは不要
  • ただし rag/ (Notebook) は Databricks 上で実行する必要があるので、Git フォルダはまだ必要

下記は初回認証作業

コンピュート > アプリ > デプロイメントを作成

まとめ

以上の手順で、Databricks と GitHub の連携設定が完了します。これにより、GitHub 上でコードを管理し、Databricks 環境に自動でデプロイできるようになります。また、開発と本番環境を簡単に分けることができるため、効率的な開発・運用が可能となります。Databricks の利用をさらに効果的に活用できるようになるでしょう。

参考資料

https://docs.databricks.com/aws/ja/repos/get-access-tokens-from-git-provider#github

https://docs.databricks.com/aws/ja/dev-tools/databricks-apps/deploy

CTA
  • URLをコピーしました!
  • URLをコピーしました!
この記事を書いた人
目次