複数人が一つのプロジェクト内で作業をする場合に、階層や命名に一定のルールを設けることで作業を効率的に行うことができるようになります。この記事では自社でのルールを紹介します。
目次
プロジェクトの表記ルール
基本的に、業界の水準に倣ったものを明文化しています。
1.命名は全て英単語を利用 a.固有名詞はローマ字化して良い
例)Engage_data, Tanakasyouten_data
2.単語はアンダースコアで繋ぐ a.可読性を向上 b.アンダース(_)が利用できない場合にはハイフン(-)を使用する
例)Engage_data, Engage-data
3.単語の先頭は大文字 a.可読性の向上 b.利用可能文字が小文字のみの場合は、この限りでない
例)Engage_data
プロジェクトでの表記ルールをあらかじめ定めておくことによって、ほかの人がそのデータを扱うときによりスムーズにデータを理解することができます。
ディレクトリ構造・命名ルール
次にディレクトリ構造・命名のルールについてです。 ディレクトリの構造ルール 最上位ディレクトリ:since-dev 第二ディレクトリ:検証で主に扱うデータごとのフォルダ 第三ディレクトリ:ローデータと整形済みデータ用のフォルダ 第四ディレクトリ:各種データを格納 デプロイしたモデルなどの保管場所は別途追記 ディレクトリ命名ルール ・基本形:[会社名][データの種類][データの期間] ・名前を見たときに内容を理解できる名称 ・似たようなデータを複数生成する必要がある場合は末尾にバージョンの記載例)v_0.1/v_01

BigQuery上でクエリを使ってフィールド名を修正する
BigQuery にファイルをアップロードした際に、ヘッダーが日本語だと以下のような文字化けの状態になってしまいます。



