【入門】数式なしで理解するk-meansとGMMの違い

graphical user interface
目次

1. はじめに

クラスタリングといえばまず名前が上がるのがk-means。しかし、「GMMってどう違うの?」「どっちを使えばいいの?」と迷ったことはありませんか? この記事では、数式を使わずに直感的なイメージで2つの違いを解説します。

2. 説明

k-means

k-meansのイメージ:一番近い人のグループに入る

k-meansは非常にシンプルです。 「あなたは一番近い重心のグループに属する」 イメージとしては、学校の通学区域に近いです。家から一番近い学校の校区に自動で割り当てられるような感じです。

k-meansの特徴

  • 各データは必ずどこかに1つのクラスタに属する
  • クラスタは円形・均等なサイズを想定している
  • シンプルで比較的計算が早い
  • クラスタ数を事前に決める必要がある

GMM

GMMのイメージ:「複数のグループに’確率的に’所属する」 

GMMはGaussian Mixture Model(混合ガウスモデル)の略です。 「あなたはグループAに70%、グループBに30%所属している」 k-meansが白黒つけるのに対して、GMMはグラデーションで考えるイメージです。 境界付近のデータは「どちらのグループかはっきりしない」と曖昧さを保持できるのがGMMの強みです。

GMMの特徴

  • 各データはクラスタへの所属確率をもつ
  • クラスタが楕円形・異なるサイズでも対応できる
  • 計算はk-meansと比べやや重い
  • クラスタ数を事前に決める必要がある
比較項目k-meansGMM
所属の決め方最も近い重心に割り当て確率で割り当て
クラスタの形円形を想定楕円形もOK
クラスタのサイズ均等を想定不均等もOK
計算速度早いやや遅い
解釈のしやすさ直感的でわかりやすい確率的で少し難しい

3. 使い分け

k-meansが向いているケース

  • データ数が多くて速度を優先したいとき
  • クラスタが丸くて均等なサイズだとわかっているとき
  • とりあえず素早く試したいとき

GMMが向いているケース

  • クラスタが楕円形や不均衡なサイズのとき
  • 境界付近のデータに曖昧さを持たせたいとき
  • 確率的な所属度が後続の分析に必要なとき

4. まとめ

k-means → シンプル・早い
     「どれか一つに必ず割り当てる」

GMM → 柔軟・確率的
    「グラデーションで所属を表現できる」

迷ったらまずk-meansで試して、「クラスタの数がいびつ」「境界付近の扱いが気になる」と感じたときにGMMを試してみるのがおすすめです。

CTA
  • URLをコピーしました!
  • URLをコピーしました!
この記事を書いた人
目次