生データを整備し、データ分析の精度とスピードを上げる
データクレンジングとは、データ分析のために収集した生データを、欠損や重複の修正、表記揺れ、不要な項目の削除などを行い、生データを分析できるデータに加工する工程のこと。
データ分析に必要なデータは、通常さまざまな部署や基幹系システムから取得するため、同じ種類のデータでも名称が異なっていたり、半角/全角、大文字/小文字が揺れていたり、分析に不要なデータが入っていることが多い。
こうしたバラバラに保存されているデータ、整備されていないデータを、データ分析に用いるツールや分析内容などに合わせて、あるべき形に整えることで、データ分析の精度やスピードを上げるのがデータクレンジングの目的である。
データクレンジングはデータの種類や内容によってプロセスはさまざまだが、一般的に下記ステップで実施される。
【データクレンジングのステップ】
1. プロファイリング
2. クレンジング
3. 名寄せ・統合
4. スコアリング
1. プロファイリング
生データの品質を分析・評価する工程。欠損、表記揺れ、不整合、誤りやノイズ、重複などがないかを確認し、現状の品質を把握する。
2. クレンジング
プロファイリングで特定されたクレンジングすべき項目を、一定のルールにしたがって修正する工程。ルールが毎回変わるとデータの精度が落ちるため、データ分析ツールのルールに合わせるなどして、ルールを厳格に決めることが重要である。
3. 名寄せ・統合
クレンジングを行うと、重複するデータが現れることが多々ある。これを名寄せによって特定し、統合することでデータの精度を上げていく。
4. モニタリング
データクレンジングは一度行えば完結するものではなく、定期的に品質管理を実施する必要がある。また、生データの入力フローを改善したり、入力画面を変えたりなどデータの発生源の改善を行うことで、データクレンジングの作業を減らすことも可能である。
そのため、データクレンジングを繰り返す中でデータの品質を定量化し、最適なデータの形を定義することが、データクレンジングの精度とスピードを向上させることにも繋がるのだ。
データ分析に使われるデータは膨大であるため、当然ながらそれらのデータクレンジングを毎回手作業で行うことは不可能に近い。そのため、データクレンジングを代行するサービスや自動化するツールなどが多々ある。それぞれ金額も特徴も異なるため、目的やニーズ、予算に合わせて導入するサービス・ツールを吟味することをおすすめする。