拡散モデル（Diffusion Model）とは？画像生成AIの核心技術を解説

Stable DiffusionやMidjourneyが驚異的な画像を生成できる背景には、「拡散モデル（Diffusion Model）」という革新的な技術があります。2020年代に入ってから急速に進化したこの技術は、GANに代わる画像生成AIの主流となりました。

拡散モデルは、画像に少しずつノイズを加えて破壊し、その逆過程でノイズを除去して画像を復元する仕組みです。この一見奇妙なアプローチが、なぜ高品質な画像生成を実現するのか、本記事で詳しく解説します。

拡散モデルとは何か？
拡散モデルの2つのプロセス
1. Forward Process：画像をノイズに破壊する
2. Reverse Process：ノイズから画像を復元する
ノイズ除去ネットワークの仕組み
テキストから画像を生成する仕組み
1. CLIP Embeddingによる条件付け
2. Classifier-Free Guidance
Latent Diffusion Model：Stable Diffusionの高速化技術
1. Latent Space（潜在空間）での処理
2. メモリ効率の向上
GANとの違い：なぜ拡散モデルが主流になったのか
1. GANの課題
2. 拡散モデルの優位性
拡散モデルの活用事例
拡散モデルの種類と進化
拡散モデルの課題と今後の展望
FAQ
関連記事
出典

拡散モデルとは何か？

拡散モデルは、物理学の「拡散過程」にヒントを得た生成AIモデルです。インクを水に垂らすと徐々に広がっていくように、画像にランダムノイズを段階的に加えて完全なノイズ状態にし、その逆過程を学習することで、ノイズから画像を生成します。

2015年にStanford大学の研究チームが基礎理論を発表し、2020年のDDPM（Denoising Diffusion Probabilistic Models）論文で実用性が確立されました。2022年にStable Diffusionが登場すると、一般ユーザーでも高品質な画像生成が可能になり、AI画像生成ブームが巻き起こりました。

拡散モデルの2つのプロセス

拡散モデルは、Forward Process（順拡散過程）とReverse Process（逆拡散過程）の2段階で動作します。

Forward Process：画像をノイズに破壊する

学習時に、元画像に対してガウシアンノイズ（正規分布に従うランダムな値）を少しずつ加えていきます。通常1000ステップかけて、最終的には完全なノイズ画像になります。

この過程は数式で定義されており、各ステップでどれだけノイズを加えるかは「ノイズスケジュール」として制御されます。重要なのは、この過程は学習不要で、単純な数式に従って実行できる点です。

Reverse Process：ノイズから画像を復元する

AIが学習するのはこちらの逆過程です。ノイズ画像を受け取り、「1ステップ前の少しノイズが少ない画像」を予測するニューラルネットワークを訓練します。

1000ステップ分の逆過程を学習すれば、完全なノイズから出発して、少しずつノイズを除去していくことで、最終的に鮮明な画像を生成できます。

ノイズ除去ネットワークの仕組み

逆拡散過程で使われるのが「ノイズ除去ネットワーク（Denoising Network）」です。Stable Diffusionでは、U-Netというアーキテクチャが使われています。

U-Netの構造

U-Netは、画像を段階的に縮小する「エンコーダ」と、再び拡大する「デコーダ」からなる対称的な構造です。エンコーダで抽出した特徴を、デコーダで対応する層に結合する「スキップコネクション」により、細部まで復元できます。

Transformerの統合

最新の拡散モデルでは、U-NetにTransformerのAttention機構を組み込んでいます。これにより、画像全体の文脈を捉えながらノイズを除去できます。

学習プロセス

学習時は、元画像とノイズ画像のペアを大量に用意し、「どのノイズが加えられたか」を予測するよう訓練します。つまり、ノイズ除去ではなくノイズ予測を学習し、予測したノイズを引き算することで元画像に近づけます。

テキストから画像を生成する仕組み

Stable Diffusionが「猫が宇宙飛行士になった絵」といったプロンプトから画像を生成できるのは、拡散モデルに「条件付け（Conditioning）」を追加しているためです。

CLIP Embeddingによる条件付け

テキストプロンプトをCLIPでエンベディング（数値ベクトル化）
このベクトルをノイズ除去ネットワークに注入
ネットワークは「このテキストに対応する画像のノイズ除去」を実行

ノイズ除去の各ステップで、テキストエンベディングがAttention機構を通じて画像生成を誘導します。これにより、プロンプトに沿った画像が生成されます。

Classifier-Free Guidance

生成画像をプロンプトに強く従わせるため、「条件付き生成」と「無条件生成」を組み合わせる技術です。両者の差分を増幅することで、プロンプトの影響を強められます。

Stable Diffusionで「CFG Scale」を高くすると、プロンプトへの忠実度が上がりますが、過度に高いと不自然な画像になります。

Latent Diffusion Model：Stable Diffusionの高速化技術

初期の拡散モデルは、高解像度画像（512×512ピクセル以上）の生成に膨大な計算が必要でした。Stable Diffusionは「Latent Diffusion Model」というアプローチで、この問題を解決しました。

Latent Space（潜在空間）での処理

VAE（変分オートエンコーダ）で画像を圧縮（例：512×512 → 64×64の潜在表現）
潜在空間でノイズ付加・除去を実行（計算量が1/64に削減）
VAEデコーダで潜在表現を元の解像度に復元

この手法により、消費者向けGPU（RTX 3060など）でも高品質な画像生成が可能になりました。

メモリ効率の向上

潜在空間は元画像より8倍小さいため、メモリ使用量も大幅に削減されます。これがStable Diffusionをオープンソース化し、広く普及させた技術的基盤です。

GANとの違い：なぜ拡散モデルが主流になったのか

2010年代の画像生成AIは、GAN（敵対的生成ネットワーク）が主流でした。しかし2020年代以降、拡散モデルが急速にGANを置き換えました。

GANの課題

学習の不安定性: 生成器と識別器のバランス調整が難しい
モード崩壊: 特定パターンの画像ばかり生成してしまう
多様性の欠如: 同じようなポーズ・構図になりがち

拡散モデルの優位性

学習の安定性: 単純なノイズ予測タスクで、学習が安定
高い多様性: ランダムノイズから生成するため、多様な出力が得られる
段階的生成: ステップ数を調整でき、品質と速度のトレードオフが可能
編集しやすさ: 途中のノイズ画像を操作することで、画像編集が容易

拡散モデルの活用事例

テキストから画像生成

Stable Diffusion: オープンソースで最も普及した拡散モデル
Midjourney: 芸術的な画像生成に特化
DALL-E 3: OpenAIの最新モデルで、プロンプト理解が高精度

画像生成AIの比較では、各サービスの特徴を詳しく解説しています。

画像編集・修復

Inpainting: 画像の一部を自然に修正
Outpainting: 画像の外側を生成して拡張
Super Resolution: 低解像度画像を高解像度化

動画生成

Runway Gen-2: テキストから短い動画を生成
Stable Video Diffusion: 静止画から動画を生成

音声・3D生成

AudioLDM: テキストから音声を生成
DreamFusion: テキストから3Dモデルを生成

拡散モデルの種類と進化

DDPM（Denoising Diffusion Probabilistic Models）

2020年に発表された基本形。1000ステップのノイズ除去で高品質だが、生成に時間がかかりました。

DDIM（Denoising Diffusion Implicit Models）

DDPMの決定論的バージョン。ステップ数を50程度に削減でき、生成が20倍高速化しました。

LDM（Latent Diffusion Models）

Stable Diffusionの基盤技術。潜在空間での処理で、メモリと計算量を大幅削減。

Consistency Models

2023年に登場した新手法。1〜2ステップで画像生成でき、リアルタイム生成に近づいています。

拡散モデルの課題と今後の展望

生成速度

現状のStable Diffusionは、1枚生成に数秒〜数十秒かかります。Consistency ModelsやLCM（Latent Consistency Models）により、1秒以内の生成が実現しつつあります。

プロンプト理解の精度

複雑なプロンプトや数の指定（「猫3匹」など）は苦手です。GPT-4VのようなマルチモーダルLLMとの統合で改善が進んでいます。

倫理的課題

著作権や肖像権の侵害、ディープフェイクへの悪用など、社会的課題が指摘されています。透かし技術や生成元の追跡技術が開発中です。

マルチモーダル拡散

テキスト・画像・音声・3Dを統一的に扱う拡散モデルが研究されており、将来的には1つのモデルで全メディアを生成できる可能性があります。

【PR】拡散モデルを実際に体験したい方には「ConoHa AI Canvas」がおすすめです。ブラウザだけでStable Diffusionベースの画像生成が可能で、高性能GPUの準備が不要。環境構築の手間なく、今すぐ拡散モデルによる画像生成を試せます。

→ ConoHa AI Canvasで画像生成を試す

FAQ

Q1. 拡散モデルとStable Diffusionの違いは何ですか？

拡散モデルは画像生成の仕組み（アルゴリズム）で、Stable Diffusionはその仕組みを使った具体的な製品です。Stable DiffusionはLatent Diffusion Modelという種類の拡散モデルを採用しています。

Q2. なぜノイズから画像を生成できるのですか？

学習時に「元画像→ノイズ」の過程で、各ステップの画像とノイズの関係を記憶します。逆過程では、この記憶を使って「このノイズはこういう画像から来た」と推測し、ノイズを除去します。膨大な画像で学習することで、現実的な画像パターンを獲得します。

Q3. 拡散モデルはGPUなしでも動きますか？

理論上は可能ですが、実用的な速度ではありません。Stable DiffusionをCPUで実行すると、1枚生成に数分〜数十分かかります。NVIDIA RTX 3060以上のGPU、またはGoogle ColabやAWSのGPUインスタンスの利用を推奨します。

Q4. 商用利用は可能ですか？

Stable Diffusionはオープンソースで、生成画像の商用利用が可能です（モデルのライセンスに依存）。一方、MidjourneyやDALL-E 3は各サービスの利用規約に従います。詳細はStable Diffusion完全ガイドで解説しています。

出典

Sohl-Dickstein, J., et al. (2015). “Deep Unsupervised Learning using Nonequilibrium Thermodynamics”. ICML.
Ho, J., et al. (2020). “Denoising Diffusion Probabilistic Models”. NeurIPS.
Rombach, R., et al. (2022). “High-Resolution Image Synthesis with Latent Diffusion Models”. CVPR.
Song, Y., et al. (2023). “Consistency Models”. arXiv:2303.01469.