Dataikuを用いてDrive内のExcelをインポートする方法

本記事では、Dataiku を用いて Google Drive 内の Excel ファイルを直接インポートする方法を取り上げ、その背景やメリットについて紹介します。

目次

はじめに

近年、企業や組織では Google Drive をはじめとするクラウドストレージを活用して、さまざまな部門間でデータを共有・管理するケースが増えています。一方で、こうしたデータを分析や機械学習のために加工するには、手作業でのダウンロードやローカル保存が必要となり、作業効率やデータの鮮度に課題が生じがちです。

本記事では、Dataiku を用いて Google Drive 内の Excel ファイルを直接インポートする方法を取り上げ、その背景やメリットについて紹介します。

Dataikuとは

Dataiku(データイク)は、ノーコード/ローコードでデータの準備・分析・機械学習モデルの構築までを一貫して行えるデータサイエンスプラットフォームです。

GUI を使った直感的な操作と、Python・SQL などコードによる柔軟な処理の両方をサポートしており、データエンジニアからビジネスアナリストまで幅広いユーザー層に適しています。また、豊富なコネクター機能を備えており、クラウドストレージやデータベース、API など様々なデータソースに接続可能です。

DataikuでGoogle Drive内のファイルをインポートするメリット

  • 最新データへの直接アクセス

    Google Drive 上のファイルを直接読み込むため、都度ダウンロードや手動アップロードを行う必要がなく、常に最新のデータを取得できます。

  • 作業効率の向上

    インポート手順を Dataiku のレシピやシナリオとして自動化でき、定期実行により更新作業の負担を大幅に削減できます。

  • データ品質の担保

    複数のメンバーが同じソースファイルを参照できるため、バージョンの不一致やローカル環境依存によるトラブルを防止できます。

  • 分析への即時利用

    インポート後は Dataiku の各種レシピや機械学習機能をすぐに適用でき、データ取得から分析までのリードタイムを短縮できます。

  • データの自動更新

    Google Drive内のファイルを更新すると、Dataiku上にインポートしたデータセットが自動で更新されます。

  • 他のデータとの結合

    BQ上にある他のデータなどと結合することができます。

実装手順

  1. Google Cloudでサービスアカウントを作成する。
  2. Dataikuにインポートしたいデータがあるフォルダーに、作成したサービスアカウントを追加する。 「共有」を選択し、以下にサービスアカウントのメールアドレスを追加する。
  3. Dataikuで「+DATASET」をクリックし、Google Driveを選択する。
  4. 「Access token」を選択し、「Manually defined」を選択し、サービスアカウント作成時に取得したシークレットキーを貼り付けます。
  5. Drive directory IDに google drive のfolders/ 以降のURLを入力してください。
  6. 使用するファイルを選択し、New dataset nameに任意のファイル名を入力してください。
  7. 以下のようにデータセットが作成されたら成功です。

 

おわりに

Google Drive と Dataiku を組み合わせることで、クラウド上の共有データを効率的かつ安全に分析基盤へ取り込むことが可能になります。特に Excel ファイルのような日常的に更新されるデータでは、直接インポートによる最新化と自動化の効果が大きく、業務のスピードと正確性向上に直結します。

次回の記事では、実際の接続設定やインポート手順を画面キャプチャ付きで解説し、すぐに実務に活用できる方法をご紹介する予定です。

CTA
  • URLをコピーしました!
  • URLをコピーしました!
この記事を書いた人
目次