MENU

Data Driven Knowledgebase

データ分析の第一歩！欠損値処理の基本とDataikuでの実践ガイド

2025年10月22日

graphical user interface

はじめに — 学びを“使える力”へ現場で分析を回すと、最初にぶつかる壁はモデルづくりではなく“データの整える力”。なかでも欠損値への向き合い方は、分析の質を静かに左右します。2022年のKaggle調査では、データサイエンティストが作業時間の約20%を欠損や矛盾データの処理に費やすという結果も。地味に見えて、ここが勝負所です。本稿では、欠損の考え方 → 代表的な対処 → Dataikuでの手順を、初学者目線で一気に整理します。読み終えたら、そのまま手が動くはず。

目次

なぜ欠損値対応が重要か

分析の偏り：欠損の発生に傾きがあると結論が歪む
モデルの学習停止・精度低下：多くのアルゴリズムは欠損を嫌う
検出力の低下：行ごと削るとサンプルが痩せて関係性を見落とす

実際にプロジェクトに参画して思うこと：

精度が伸びない原因の１つに前処理がまず挙げられます。欠損の見える化→理由→対処と段階を踏むだけで、モデルの精度が飛躍的に向上する。

欠損の仕組みを3分類で捉える（選ぶ手法の土台）

MCAR（完全にランダム）：紛失など完全偶然。バイアス小。行削除も許容。
MAR（他の観測変数に依存）：性別など別変数を条件にすると“ランダム”。条件付きの補完が筋。
MNAR（値そのものに依存）：症状が重いほど無回答など。最難。単純補完は過小評価の危険。設計レベルで追加データや仮定が必要。

代表的な対処法（短所もセットで理解）

3.1 行を削除（リストワイズ）

速い・簡単。
代償：サンプル消失＆MCARでないとバイアス。乱用注意。

3.2 代表値で補完（単純代入）

平均：手軽。ただし外れ値に弱い。
中央値：外れ値に強い。数値の初手で安定。
最頻値：カテゴリ向け。“欠けていること自体に意味”がある場合は別設計（「不明」タグ化）も有効。

3.3 予測して埋める（高度代入）

KNN補完など。他特徴量から推定。
メリット：関係性を活かせる。デメリット：計算コスト高／リークに注意。

よくある落とし穴：

目的変数や将来情報に触れた特徴で補完すると情報リーク。本番では学習用統計量のみで変換しましょう。

4.1 欠損の“見える化”

データセットを開くと各列ヘッダの品質バーが表示：緑=有効（その列に設定された“意味に値が適合している状態）

ただ、「Age」に関しては注意すべきのようです↓

灰=「欠損あり」の状態なので、後ほど欠損値処理を行います。

そして、もう１つ、よくあるエラーです↓

最後に赤色＝無効（invalid）データがある（型に合わない値など）

画面右上「列」を選択→ 欠損している項目が一発で分かります。

次にやること：欠損値がある項目を特定したので、欠損値を処理する（今回は平均値で埋める方法を実践してみたいと思います）。

Prepareレシピで処理しましょう（生データに直接は触らない）。

4.2 「Age」を平均で埋める

Age (欠損処理をしたい列)をクリックする。

そして、「データクレンジング」の項目に

「空の行を補充」をクリックする

方法＝Average (Mean)を選択

今回の場合は平均で埋めますが、欠損値の処理の仕方を場合によって選ぶことができる。「最頻値」「中央値」などで埋めることができる

「OK」を押して、欠損値が補充されたかを確認する

緑のバーが端まで表示されているの欠損値なしの状態です

実務Tip：

外れ値が多いときは Median（中央値） を選択。説明欄に「外れ値多→中央値」と一言メモ。

4.3 補充した「Age」の平均値を四捨五入して整数にする処理

同じPrepareで「Age」を選択→ 「四捨五入して整数化」をクリック

※ここまでの欠損値処理は実際にはまだ完了していません。あくまでもプレビューなので、次のステップで欠損値処理を完了させます

左の側の実行ステップを確認する

この２つの項目が今回の欠損値処理の内容です

一番下の「実行」を押して

↑この表示が出れば、欠損値処理が完了

↑欠損値がない状態を示しています

↑欠損値が「平均値」で補完されています

「Age」の欠損値が「平均値」で補完されたことが一目でわかります：

※左側の実行ステップは、最終的に「実行」をクリックすることで、上か順に実行される。

5. どの方法を“いつ”選ぶ？

欠損率：高すぎる列は列ごと削除するか検討or欠損フラグ化
データ型：数値→平均/中央値、カテゴリ→最頻値/「不明」
外れ値：多いなら中央値
欠損機構：MNARの気配が強いなら、回収設計や補助変数を検討
再現性：学習/本番の同一トランスフォーム、統計量の学習データ固定
説明責任：なぜそう補完したか、1行メモを残す

まとめ — “整える力”がモデル精度改善へと繋がる

欠損値対応は、信頼できる結論と安定したモデルの土台です。Dataikuなら、可視化→意思決定→処理をノーコードで一気通貫。まずはPrepareレシピで小さく始め、判断のログを残す。これだけで前処理はチームの再現可能な“資産”になります。

データの海に出る準備は完了。次は実データで、あなたの現場に合った“欠損の作法”を育てていきましょう。

おまけ

分析力と実装力が0.1ずつ伸びました（気がしますw）

毎日、コツコツ伸ばしていきたいと思います！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人