データクレンジング【data cleansing】

生データを整備し、データ分析の精度とスピードを上げる

データクレンジングとは、データ分析のために収集した生データを、欠損や重複の修正、表記揺れ、不要な項目の削除などを行い、生データを分析できるデータに加工する工程のこと。

データ分析に必要なデータは、通常さまざまな部署や基幹系システムから取得するため、同じ種類のデータでも名称が異なっていたり、半角／全角、大文字／小文字が揺れていたり、分析に不要なデータが入っていることが多い。

こうしたバラバラに保存されているデータ、整備されていないデータを、データ分析に用いるツールや分析内容などに合わせて、あるべき形に整えることで、データ分析の精度やスピードを上げるのがデータクレンジングの目的である。

データクレンジングはデータの種類や内容によってプロセスはさまざまだが、一般的に下記ステップで実施される。
　
　
【データクレンジングのステップ】
1. プロファイリング
2. クレンジング
3. 名寄せ・統合
4. スコアリング
　
　
1. プロファイリング
生データの品質を分析・評価する工程。欠損、表記揺れ、不整合、誤りやノイズ、重複などがないかを確認し、現状の品質を把握する。
　
　
2. クレンジング
プロファイリングで特定されたクレンジングすべき項目を、一定のルールにしたがって修正する工程。ルールが毎回変わるとデータの精度が落ちるため、データ分析ツールのルールに合わせるなどして、ルールを厳格に決めることが重要である。
　
　
3. 名寄せ・統合
クレンジングを行うと、重複するデータが現れることが多々ある。これを名寄せによって特定し、統合することでデータの精度を上げていく。
　
　
4. モニタリング
データクレンジングは一度行えば完結するものではなく、定期的に品質管理を実施する必要がある。また、生データの入力フローを改善したり、入力画面を変えたりなどデータの発生源の改善を行うことで、データクレンジングの作業を減らすことも可能である。

そのため、データクレンジングを繰り返す中でデータの品質を定量化し、最適なデータの形を定義することが、データクレンジングの精度とスピードを向上させることにも繋がるのだ。
　
　
データ分析に使われるデータは膨大であるため、当然ながらそれらのデータクレンジングを毎回手作業で行うことは不可能に近い。そのため、データクレンジングを代行するサービスや自動化するツールなどが多々ある。それぞれ金額も特徴も異なるため、目的やニーズ、予算に合わせて導入するサービス・ツールを吟味することをおすすめする。

生データを整備し、データ分析の精度とスピードを上げる

メルマガ開封率2000倍！
マーケティング・オートメーション成功例

データ分析の先駆者は大阪ガス？
便利屋が最強の分析チームになるまで

アスクルはビッグデータの共有化で
一大ビジネスを築くことに成功