Stable DiffusionやMidjourneyが驚異的な画像を生成できる背景には、「拡散モデル(Diffusion Model)」という革新的な技術があります。2020年代に入ってから急速に進化したこの技術は、GANに代わる画像生成AIの主流となりました。
拡散モデルは、画像に少しずつノイズを加えて破壊し、その逆過程でノイズを除去して画像を復元する仕組みです。この一見奇妙なアプローチが、なぜ高品質な画像生成を実現するのか、本記事で詳しく解説します。
拡散モデルとは何か?
拡散モデルは、物理学の「拡散過程」にヒントを得た生成AIモデルです。インクを水に垂らすと徐々に広がっていくように、画像にランダムノイズを段階的に加えて完全なノイズ状態にし、その逆過程を学習することで、ノイズから画像を生成します。
2015年にStanford大学の研究チームが基礎理論を発表し、2020年のDDPM(Denoising Diffusion Probabilistic Models)論文で実用性が確立されました。2022年にStable Diffusionが登場すると、一般ユーザーでも高品質な画像生成が可能になり、AI画像生成ブームが巻き起こりました。
拡散モデルの2つのプロセス
拡散モデルは、Forward Process(順拡散過程)とReverse Process(逆拡散過程)の2段階で動作します。
Forward Process:画像をノイズに破壊する
学習時に、元画像に対してガウシアンノイズ(正規分布に従うランダムな値)を少しずつ加えていきます。通常1000ステップかけて、最終的には完全なノイズ画像になります。
この過程は数式で定義されており、各ステップでどれだけノイズを加えるかは「ノイズスケジュール」として制御されます。重要なのは、この過程は学習不要で、単純な数式に従って実行できる点です。
Reverse Process:ノイズから画像を復元する
AIが学習するのはこちらの逆過程です。ノイズ画像を受け取り、「1ステップ前の少しノイズが少ない画像」を予測するニューラルネットワークを訓練します。
1000ステップ分の逆過程を学習すれば、完全なノイズから出発して、少しずつノイズを除去していくことで、最終的に鮮明な画像を生成できます。
ノイズ除去ネットワークの仕組み
逆拡散過程で使われるのが「ノイズ除去ネットワーク(Denoising Network)」です。Stable Diffusionでは、U-Netというアーキテクチャが使われています。
U-Netの構造
U-Netは、画像を段階的に縮小する「エンコーダ」と、再び拡大する「デコーダ」からなる対称的な構造です。エンコーダで抽出した特徴を、デコーダで対応する層に結合する「スキップコネクション」により、細部まで復元できます。
Transformerの統合
最新の拡散モデルでは、U-NetにTransformerのAttention機構を組み込んでいます。これにより、画像全体の文脈を捉えながらノイズを除去できます。
学習プロセス
学習時は、元画像とノイズ画像のペアを大量に用意し、「どのノイズが加えられたか」を予測するよう訓練します。つまり、ノイズ除去ではなくノイズ予測を学習し、予測したノイズを引き算することで元画像に近づけます。
テキストから画像を生成する仕組み
Stable Diffusionが「猫が宇宙飛行士になった絵」といったプロンプトから画像を生成できるのは、拡散モデルに「条件付け(Conditioning)」を追加しているためです。
CLIP Embeddingによる条件付け
- テキストプロンプトをCLIPでエンベディング(数値ベクトル化)
- このベクトルをノイズ除去ネットワークに注入
- ネットワークは「このテキストに対応する画像のノイズ除去」を実行
ノイズ除去の各ステップで、テキストエンベディングがAttention機構を通じて画像生成を誘導します。これにより、プロンプトに沿った画像が生成されます。
Classifier-Free Guidance
生成画像をプロンプトに強く従わせるため、「条件付き生成」と「無条件生成」を組み合わせる技術です。両者の差分を増幅することで、プロンプトの影響を強められます。
Stable Diffusionで「CFG Scale」を高くすると、プロンプトへの忠実度が上がりますが、過度に高いと不自然な画像になります。
Latent Diffusion Model:Stable Diffusionの高速化技術
初期の拡散モデルは、高解像度画像(512×512ピクセル以上)の生成に膨大な計算が必要でした。Stable Diffusionは「Latent Diffusion Model」というアプローチで、この問題を解決しました。
Latent Space(潜在空間)での処理
- VAE(変分オートエンコーダ)で画像を圧縮(例:512×512 → 64×64の潜在表現)
- 潜在空間でノイズ付加・除去を実行(計算量が1/64に削減)
- VAEデコーダで潜在表現を元の解像度に復元
この手法により、消費者向けGPU(RTX 3060など)でも高品質な画像生成が可能になりました。
メモリ効率の向上
潜在空間は元画像より8倍小さいため、メモリ使用量も大幅に削減されます。これがStable Diffusionをオープンソース化し、広く普及させた技術的基盤です。
GANとの違い:なぜ拡散モデルが主流になったのか
2010年代の画像生成AIは、GAN(敵対的生成ネットワーク)が主流でした。しかし2020年代以降、拡散モデルが急速にGANを置き換えました。
GANの課題
- 学習の不安定性: 生成器と識別器のバランス調整が難しい
- モード崩壊: 特定パターンの画像ばかり生成してしまう
- 多様性の欠如: 同じようなポーズ・構図になりがち
拡散モデルの優位性
- 学習の安定性: 単純なノイズ予測タスクで、学習が安定
- 高い多様性: ランダムノイズから生成するため、多様な出力が得られる
- 段階的生成: ステップ数を調整でき、品質と速度のトレードオフが可能
- 編集しやすさ: 途中のノイズ画像を操作することで、画像編集が容易
拡散モデルの活用事例
テキストから画像生成
- Stable Diffusion: オープンソースで最も普及した拡散モデル
- Midjourney: 芸術的な画像生成に特化
- DALL-E 3: OpenAIの最新モデルで、プロンプト理解が高精度
画像生成AIの比較では、各サービスの特徴を詳しく解説しています。
画像編集・修復
- Inpainting: 画像の一部を自然に修正
- Outpainting: 画像の外側を生成して拡張
- Super Resolution: 低解像度画像を高解像度化
動画生成
- Runway Gen-2: テキストから短い動画を生成
- Stable Video Diffusion: 静止画から動画を生成
音声・3D生成
- AudioLDM: テキストから音声を生成
- DreamFusion: テキストから3Dモデルを生成
拡散モデルの種類と進化
DDPM(Denoising Diffusion Probabilistic Models)
2020年に発表された基本形。1000ステップのノイズ除去で高品質だが、生成に時間がかかりました。
DDIM(Denoising Diffusion Implicit Models)
DDPMの決定論的バージョン。ステップ数を50程度に削減でき、生成が20倍高速化しました。
LDM(Latent Diffusion Models)
Stable Diffusionの基盤技術。潜在空間での処理で、メモリと計算量を大幅削減。
Consistency Models
2023年に登場した新手法。1〜2ステップで画像生成でき、リアルタイム生成に近づいています。
拡散モデルの課題と今後の展望
生成速度
現状のStable Diffusionは、1枚生成に数秒〜数十秒かかります。Consistency ModelsやLCM(Latent Consistency Models)により、1秒以内の生成が実現しつつあります。
プロンプト理解の精度
複雑なプロンプトや数の指定(「猫3匹」など)は苦手です。GPT-4VのようなマルチモーダルLLMとの統合で改善が進んでいます。
倫理的課題
著作権や肖像権の侵害、ディープフェイクへの悪用など、社会的課題が指摘されています。透かし技術や生成元の追跡技術が開発中です。
マルチモーダル拡散
テキスト・画像・音声・3Dを統一的に扱う拡散モデルが研究されており、将来的には1つのモデルで全メディアを生成できる可能性があります。
【PR】拡散モデルを実際に体験したい方には「ConoHa AI Canvas」がおすすめです。ブラウザだけでStable Diffusionベースの画像生成が可能で、高性能GPUの準備が不要。環境構築の手間なく、今すぐ拡散モデルによる画像生成を試せます。
FAQ
Q1. 拡散モデルとStable Diffusionの違いは何ですか?
拡散モデルは画像生成の仕組み(アルゴリズム)で、Stable Diffusionはその仕組みを使った具体的な製品です。Stable DiffusionはLatent Diffusion Modelという種類の拡散モデルを採用しています。
Q2. なぜノイズから画像を生成できるのですか?
学習時に「元画像→ノイズ」の過程で、各ステップの画像とノイズの関係を記憶します。逆過程では、この記憶を使って「このノイズはこういう画像から来た」と推測し、ノイズを除去します。膨大な画像で学習することで、現実的な画像パターンを獲得します。
Q3. 拡散モデルはGPUなしでも動きますか?
理論上は可能ですが、実用的な速度ではありません。Stable DiffusionをCPUで実行すると、1枚生成に数分〜数十分かかります。NVIDIA RTX 3060以上のGPU、またはGoogle ColabやAWSのGPUインスタンスの利用を推奨します。
Q4. 商用利用は可能ですか?
Stable Diffusionはオープンソースで、生成画像の商用利用が可能です(モデルのライセンスに依存)。一方、MidjourneyやDALL-E 3は各サービスの利用規約に従います。詳細はStable Diffusion完全ガイドで解説しています。
関連記事
- Stable Diffusion完全ガイド:インストールから応用まで
- 画像生成AI徹底比較:Midjourney vs Stable Diffusion vs DALL-E
- Transformerとは?AI革命を起こしたアーキテクチャの仕組みを図解
出典
- Sohl-Dickstein, J., et al. (2015). “Deep Unsupervised Learning using Nonequilibrium Thermodynamics”. ICML.
- Ho, J., et al. (2020). “Denoising Diffusion Probabilistic Models”. NeurIPS.
- Rombach, R., et al. (2022). “High-Resolution Image Synthesis with Latent Diffusion Models”. CVPR.
- Song, Y., et al. (2023). “Consistency Models”. arXiv:2303.01469.


コメント