はじめに
Dataikuの AutoML 機能は、データを与えるだけで複数の機械学習アルゴリズムを自動的に学習・比較し、結果を提示します。
本記事では、DataikuのAutoMLに含まれる代表的な機械学習アルゴリズムのうち、4つの基本アルゴリズム—線形回帰、ロジスティック回帰、決定木、ランダムフォレストーについて、それぞれの仕組みと用途を紹介します。
DataikuとAutoMLの概要
Dataiku は、コーディングを最小限に抑えながらデータ分析および機械学習を実行できる統合プラットフォームです。データの取り込み、前処理、モデル構築、評価、デプロイまでを一つの環境で完結できる機能があります。
その中核となる機能が Visual ML です。ユーザーが目的変数(予測対象)を指定して学習を実行すると、Dataikuは複数のアルゴリズムを並列に学習・評価し、性能指標とともに結果を表示します。これがいわゆる AutoML(自動機械学習) の仕組みです。

Dataikuでは、予測対象の種類(数値かカテゴリか)によって選択可能なアルゴリズムが切り替わります。たとえば、線形回帰は Ordinary Least Squares(OLS) の名称で回帰タスク(数値を予測するタスク)に表示され、ロジスティック回帰は分類タスク(カテゴリを予測するタスク)に表示されます。
① 線形回帰(Linear Regression / Ordinary Least Squares)
概要:説明変数と目的変数の関係を、直線の式 によって近似するアルゴリズムです。基本的かつ古典的な統計手法のひとつです。
仕組み:実測値と予測値の差(残差)の二乗和が最小となるような直線を求めます。これが「最小二乗法(Least Squares)」と呼ばれる理由です。
主な用途:売上予測、不動産価格の見積もり、広告費と売上の関係分析など、連続値 を予測する場面で使われます。
Dataikuでの位置づけ:Dataikuの回帰タスクで「Ordinary Least Squares」として提供されており、AutoMLの選択肢のひとつになっています。
② ロジスティック回帰(Logistic Regression)
概要:「Yes / No」のような 2値分類 を行うアルゴリズムです。名称に「回帰」を含みますが、出力は数値ではなく、各クラスに属する確率です。
仕組み:線形回帰の出力を シグモイド関数 に通すことで、結果を0〜1の範囲(確率)に変換します。たとえば「顧客が解約する確率は0.85」というような出力が得られます。
主な用途:顧客の離反予測、スパムメールの判定、ローン審査の合否判定など、結果が二択となる予測タスクで使われます。
Dataikuでの位置づけ:Dataikuの分類タスクにおけるアルゴリズムのひとつとして提供されています。学習結果として各説明変数の係数が出力されるため、どの変数が予測結果に影響しているかを確認できます。
③ 決定木(Decision Tree)
概要:データを条件分岐によって繰り返し分割し、木構造 で予測ルールを表現するアルゴリズムです。
仕組み:「年齢は30歳以上か」「年収は500万円以上か」といった条件で順次データを分割し、最終的な葉(リーフ)に到達した時点で予測値を返します。各分岐の条件はアルゴリズムが自動的に決定します。
主な用途:ローン審査、商品レコメンド、医療診断支援など、判断根拠を確認できる ケースで使われます。
Dataikuでの位置づけ:得られた木構造をそのまま図示できる機能があります。なお、単独の決定木には 過学習(訓練データに適合しすぎる現象)が起きやすいという性質があり、Dataikuにはこれを補うランダムフォレストなどの アンサンブル手法 も用意されています。
④ ランダムフォレスト(Random Forest)
概要:多数の決定木を構築し、それらの予測結果を 多数決(分類)または平均(回帰) によって統合するアンサンブル手法です。
仕組み:訓練データからランダムに抽出したサブセットを用いて、互いに異なる多数の決定木を構築します。個々の木の予測結果を統合することで、安定した予測精度が得られます。
主な用途:顧客離反予測、需要予測、不正検知など、精度を重視するタスクで使われます。表形式データの予測におけるベースラインとして広く使われているアルゴリズムです。
Dataikuでの位置づけ:DataikuのAutoMLでデフォルトで有効化されているアルゴリズムのひとつです。回帰タスク・分類タスクのどちらでも利用できます。
アルゴリズムの特徴比較
4つのアルゴリズムを軸ごとに整理すると、以下のような特徴があります。
- 学習速度・計算コスト:線形回帰、ロジスティック回帰
- 解釈性(仕組みのわかりやすさ):線形回帰、ロジスティック回帰、決定木
- 予測精度:ランダムフォレスト
DataikuのAutoMLでは、これらのアルゴリズムを並列に学習させた結果を Leaderboard(性能比較画面) で確認できます。精度・AUC・RMSEといった性能指標とともに、各モデルの特性を並べて比較できる画面が用意されています。

おわりに
本記事で取り上げた4つのアルゴリズム—線形回帰、ロジスティック回帰、決定木、ランダムフォレスト—は、機械学習の基礎としてよく登場するアルゴリズムです。
DataikuのAutoMLには、ほかにも勾配ブースティング系の XGBoost や LightGBM、教師なし学習における K-meansクラスタリング など、さまざまなアルゴリズムが用意されています。

