拡散モデル入門　~「DDIMはなぜ速い？」を理解する~

2026年5月22日

Salt pans by the ocean with distant rocky hills.

近年、Stable Diffusionに代表される画像生成の能力が飛躍的な進歩を遂げています。その根幹となる技術として「拡散確率モデル（Diffusion Probabilistic Model）」が使われています。拡散確率モデルとして最も基礎的な手法がDDPM（Denoising Diffusion Probabilistic Model）と呼ばれるもので、元の画像に対し徐々にノイズを加えていき、生成過程ではそのノイズを予測・除去することで高品質な画像を生成します。しかしDDPMは、生成に多くのステップを要するという課題がありました。そこでDDPMの生成品質を維持しつつ生成速度を大幅に向上させた手法、DDIM（Denoising Diffusion Implicit Model）が提案されます。今回はまずDDPMについて概説したのち、DDIMがなぜ高速な生成を行えるのかを、数式を最小限に抑えつつ、直感的なイメージで解説します。

DDPMについて

DDPMはDenoising Diffusion Probabilistic Modelの頭文字をとったもので、「コーヒーに牛乳を注ぎかき混ぜるとコーヒー牛乳になる。では逆に、このコーヒー牛乳はどの程度かき混ぜたのか、元のコーヒーはどのようなものだったか」という非平衡熱力学に基づいたアイデアが起源となっています。

拡散過程（ノイズの付与）

ここに複数枚のひまわりの画像があるとします。画角・明暗・ひまわりの大きさなどはバラバラで、「ひまわりの画像」であることが共通点です。

これらの画像1枚1枚に、少しずつガウスノイズを加えていきます。数式で表すと、時刻 $t$ のステップでの画像 $x_t$ は

x_t = \sqrt{\bar{\alpha}_t}\, x_0 + \sqrt{1-\bar{\alpha}_t}\,\epsilon, \quad \epsilon \sim \mathcal{N}(0, I)

と書けます（ $\bar{\alpha}_t$ はノイズスケジュールで決まる定数）。ひまわりの画像は徐々にぐちゃぐちゃになり、最終的に完全なランダムノイズへと変貌します。このとき、「各ステップでどのようなノイズ $\epsilon$ を加えたか」という情報を記録しておきます。これが生成過程の肝となります。

逆拡散過程（生成過程）

拡散過程を逆再生するように、ノイズを1ステップずつ除去していきます。各ステップでは、U-Netなどのニューラルネットワークが「このノイズ画像にどのようなノイズが加わっていたか」を予測し、それを差し引くことでより鮮明な画像に近づけていきます。

DDPMではこの処理が逆拡散のマルコフ連鎖として定式化されており、一般的に約1000ステップの反復が必要です。これが大きな計算コストとなります。

DDIMについて

この課題に対して提案されたのが、DDIM（Denoising Diffusion Implicit Model）です。ここで出てきた「Implicit（暗黙的な）」は、DDPMがマルコフ過程に基づいて1ステップずつノイズを付与・除去するのに対し、DDIMではそのマルコフ性の仮定を外し、非マルコフ的な拡散過程を導入することに由来します。

なぜマルコフ性を外すとステップをスキップできるのか。DDPMの逆拡散では「直前のステップ $x_{t-1}$ を求める」という制約があります。一方DDIMは、任意のステップ $t$ から元画像 $\hat{x}_0$ を一度直接推定し、それをもとに任意のステップ $t’$ ( <math data-latex="t't′<tt'<t ) へとジャンプします。この更新式は次のように書けます：

x_{t’} = \sqrt{\bar{\alpha}_{t’}}\,\hat{x}_0 + \sqrt{1-\bar{\alpha}_{t’}}\,\epsilon_\theta(x_t, t)

この仕組みにより、DDIMは10〜100ステップ程度の推論で、DDPMに匹敵あるいはそれ以上の品質の画像を生成できます。CIFAR-10での実験では、DDIMは1000ステップのDDPMに相当するFIDスコアを、わずか10〜20ステップで達成しており、50〜100倍の高速化が確認されています。

また、DDIMは更新式が決定論的（ランダム性がない）であるため、同じ初期ノイズからは常に同じ画像が生成されるという「一貫性」も持ちます。

【補足】：何を学習するか—— $\epsilon$ 予測と $x_0$ 予測

DDIMに限らず拡散モデル全般で、「ニューラルネットワークが何を学習ターゲットにするか」には2通りの選択肢があります。ひとつはノイズそのものを予測する $\epsilon$ 予測（DDPMの原論文標準）、もうひとつは元のクリーン画像を直接予測する $x_0$ 予測です。両者は次の式で1対1に書き換えられる等価な関係にあります：

\hat{x}_0 = \frac{x_t – \sqrt{1-\bar{\alpha}_t}\cdot\hat{\epsilon}}{\sqrt{\bar{\alpha}_t}}

$x_0$ 予測の実用上の利点は、損失関数のターゲットがデータ空間（画像空間）に直接あることです。これにより、ピクセル単位のMSEに加えて、知覚損失（LPIPS）やSSIMなど人間の感覚に沿った損失を自然な形で組み込めます。

生成モデル最近の動向

拡散モデルは、それ以前のVAE（変分オートエンコーダ）やGAN（敵対的生成ネットワーク）と比べて多様なデータ分布を安定して学習できる強みがありますが、VAEやGANが生成時に1ステップで画像を出力できるのに対し、DDIMでも推論時に複数ステップの処理が必要です。

そこで2026年2月頃に提案されたのがDrifting Models（Deng et al., 2026）です。拡散モデルやフローモデルが推論時に繰り返しステップを必要とするのに対し、Drifting Modelsはこの反復処理を学習時に吸収することで、推論をわずか1回の順伝播（1-NFE: Number of Function Evaluations）で完結させるという新しいパラダイムを提案しています。ImageNet 256×256での実験では、1-NFEで潜在空間FID 1.54・ピクセル空間FID 1.61という単一ステップ手法としての最高水準の結果を報告しています。

ただし2026年5月現在、この手法はarXiv上のプレプリント段階であり、査読を経た評価や広範な条件での再現性はまだ確立されていません。また「拡散モデル並み」と比較されているのも特定のベンチマーク設定に限られます。仮にその有効性が広く認められた場合、DDIMをはじめとするマルチステップ手法に代わる選択肢として注目される可能性はありますが、現時点では「拡散モデルが過去のものになる」と断言できる段階ではありません。