【Databricks】Streamlitを使用したレポートの作成

2026年1月5日

今回は、データの可視化からレポートのPDF保存まで行うwebアプリを構築していきます。Databricks上でデプロイまでを行うことで、データ連携を容易に行うことが出来、データ活用の幅を広げることが出来ます。

はじめに

環境構築

まずは、Databricks上にデプロイするための準備を行っていきます。

詳細は以下のブログに記載されています。主な手順は

１，Databricksのコンピュートからアプリを作成

２，ユーザー認証の設定

３，必要ファイル（app.py, app.yaml, requirements.txt）の準備及びデプロイ

です。

環境が作成出来れば、app.py以下に必要なコードを記載することでwebアプリを構築することが出来ます。

参考：

https://blog.since2020.jp/bi/databricks-apps-deployment/

使用データ

今回使用するデータはKaggleの「Walmart Dataset」です。

このデータセットは米国の大手小売業者であるWalmartの売上データを含む、2010年2月5日から2012年11月1日までの時系列データセットです。各店舗ごとに売り上げが記載されています。

このデータを使用して各店舗ごとの売上の合計高を棒グラフで表示し、レポートを作成していきます。

参考：

https://www.kaggle.com/datasets/yasserh/walmart-dataset

コードの記載

コードの解説

上記のコードでは５つの機能を関数として定義し、UI上で呼び出して使用しています。Databricksとの接続を行う関数以外の４つの関数とUIについて解説していきます。

fetch_sales_by_store

役割：

Databricksに接続し、店舗1,2,3それぞれのWeekly_Salesの合計を取得してPandas DataFrameとして返す関数です。記載しているqueryをcursor.execute()でDatabricks上に投げ、返ってきた結果をto_pandas()でPandas形式に変換しています。

create_bar_chart_base64

役割： 各店舗名と各店舗に対応する売上高を入力として受け取り、棒グラフとして描画し、base64エンコードされた画像文字列として返す関数です。Streamlit上でレポートはHTML形式で作成しますが、base64形式にすることで、レポート化する際にHTMLに直接埋め込んで表示できます。

create_bar_chart_buffer

役割： 各店舗名と各店舗に対応する売上高を入力として受け取り、棒グラフとして描画し、BytesIOバッファとして返す関数です。PDF生成時に、バッファを使用することでレポートにグラフを含めることが出来ます。

generate_pdf

役割：

各店舗名と各店舗に対応する売上高、バッファ化されたグラフを受け取り、A4サイズのPDFレポートを生成し、BytesIOバッファとして返す関数です。タイトル、日付、棒グラフ、合計金額、フッターを含むシンプルなレポートを作成します。

大まかな流れとしては

１，pdfキャンパスの初期化

２，背景色の設定

３，タイトルの描写

４，作成日の描写