目次
1. はじめに
クラスタリングといえばまず名前が上がるのがk-means。しかし、「GMMってどう違うの?」「どっちを使えばいいの?」と迷ったことはありませんか? この記事では、数式を使わずに直感的なイメージで2つの違いを解説します。
2. 説明
k-means
k-meansのイメージ:一番近い人のグループに入る
k-meansは非常にシンプルです。 「あなたは一番近い重心のグループに属する」 イメージとしては、学校の通学区域に近いです。家から一番近い学校の校区に自動で割り当てられるような感じです。
k-meansの特徴
- 各データは必ずどこかに1つのクラスタに属する
- クラスタは円形・均等なサイズを想定している
- シンプルで比較的計算が早い
- クラスタ数を事前に決める必要がある
GMM
GMMのイメージ:「複数のグループに’確率的に’所属する」
GMMはGaussian Mixture Model(混合ガウスモデル)の略です。 「あなたはグループAに70%、グループBに30%所属している」 k-meansが白黒つけるのに対して、GMMはグラデーションで考えるイメージです。 境界付近のデータは「どちらのグループかはっきりしない」と曖昧さを保持できるのがGMMの強みです。
GMMの特徴
- 各データはクラスタへの所属確率をもつ
- クラスタが楕円形・異なるサイズでも対応できる
- 計算はk-meansと比べやや重い
- クラスタ数を事前に決める必要がある
| 比較項目 | k-means | GMM |
| 所属の決め方 | 最も近い重心に割り当て | 確率で割り当て |
| クラスタの形 | 円形を想定 | 楕円形もOK |
| クラスタのサイズ | 均等を想定 | 不均等もOK |
| 計算速度 | 早い | やや遅い |
| 解釈のしやすさ | 直感的でわかりやすい | 確率的で少し難しい |
3. 使い分け
k-meansが向いているケース
- データ数が多くて速度を優先したいとき
- クラスタが丸くて均等なサイズだとわかっているとき
- とりあえず素早く試したいとき
GMMが向いているケース
- クラスタが楕円形や不均衡なサイズのとき
- 境界付近のデータに曖昧さを持たせたいとき
- 確率的な所属度が後続の分析に必要なとき
4. まとめ
k-means → シンプル・早い
「どれか一つに必ず割り当てる」
GMM → 柔軟・確率的
「グラデーションで所属を表現できる」
迷ったらまずk-meansで試して、「クラスタの数がいびつ」「境界付近の扱いが気になる」と感じたときにGMMを試してみるのがおすすめです。

