Stable Diffusion 3.5が解決する課題
従来のStable Diffusion 1.5やXLでは、複雑な構図や複数オブジェクトの配置、テキストレンダリングの精度に課題がありました。特にプロフェッショナルな用途では、手の描写の不自然さや細部のディテール不足が問題視されていました。
Stable Diffusion 3.5は、これらの課題に対し、新しいアーキテクチャとトレーニング手法により大幅な改善を実現しています。
Stable Diffusion 3.5の概要
主要な特徴
MMDiT(Multimodal Diffusion Transformer)アーキテクチャ
– U-Netではなく、Transformerベースの新設計
– テキストと画像の情報を統合的に処理
– より精密なプロンプト理解と画像生成を実現
3つのモデルバリエーション
– SD3.5 Large(8Bパラメータ): 最高品質、商用利用可能
– SD3.5 Medium(2.5Bパラメータ): バランス型
– SD3.5 Large Turbo: 高速生成特化(4ステップで生成可能)
改善されたテキスト生成能力
画像内のテキストレンダリング精度が大幅に向上し、ロゴやタイポグラフィを含む画像生成に対応しました。
従来モデルとの違い
| 項目 | SD 1.5/XL | SD 3.5 |
|---|---|---|
| アーキテクチャ | U-Net | MMDiT(Transformer) |
| テキスト精度 | 低〜中 | 高 |
| 複雑な構図 | やや弱い | 大幅改善 |
| 手の描写 | 不自然になりやすい | 自然な描写 |
| 商用利用 | XLは制限あり | Largeは可能 |
参考: Stable Diffusion完全ガイドでは、基本的な使い方とバージョンの歴史を詳しく解説しています。
Stable Diffusion 3.5の導入・セットアップ
必要なスペック
推奨環境
– GPU: NVIDIA RTX 4090(24GB VRAM)以上
– RAM: 32GB以上
– ストレージ: 100GB以上の空き容量
最低環境(Medium/Turboモデル)
– GPU: RTX 3060(12GB VRAM)
– RAM: 16GB
– ストレージ: 50GB
Stability AI公式APIでの利用
最も簡単な導入方法は、Stability AI APIを使用することです。
import requests
response = requests.post(
"https://api.stability.ai/v2beta/stable-image/generate/sd3",
headers={
"authorization": f"Bearer YOUR_API_KEY",
"accept": "image/*"
},
files={"none": ''},
data={
"prompt": "A futuristic cityscape at sunset, photorealistic, 8k",
"model": "sd3.5-large",
"aspect_ratio": "16:9",
"output_format": "png"
},
)
if response.status_code == 200:
with open("./output.png", 'wb') as file:
file.write(response.content)
ローカル環境での導入
1. Hugging Faceからモデルをダウンロード
# Hugging Face CLIをインストール
pip install huggingface-hub
# ログイン(事前にHugging Faceアカウントでライセンス同意が必要)
huggingface-cli login
# モデルをダウンロード
huggingface-cli download stabilityai/stable-diffusion-3.5-large
2. ComfyUIでの利用
ComfyUIは、Stable Diffusion 3.5に対応したノードベースのUIです。
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt
# SD3.5モデルを所定のディレクトリに配置
cp ~/stable-diffusion-3.5-large.safetensors ./models/checkpoints/
詳細: ComfyUI完全ガイドで、ワークフロー構築とカスタマイズ方法を解説しています。
実践的な使い方
基本的なプロンプト構造
SD3.5では、詳細で構造化されたプロンプトが効果的です。
推奨プロンプト構造
[主要被写体], [スタイル], [構図・視点], [照明], [品質指定]
例
A Japanese garden with cherry blossoms in full bloom,
traditional ink painting style,
wide angle view from elevated position,
soft morning light filtering through trees,
highly detailed, masterpiece, 8k resolution
プロンプト最適化テクニック
1. 具体的な描写を追加
悪い例:
beautiful landscape
良い例:
Mountain valley at golden hour, snow-capped peaks,
alpine meadow with wildflowers, crystal clear river,
volumetric lighting, cinematic composition
2. ネガティブプロンプトの活用
SD3.5では、ネガティブプロンプトで避けたい要素を明示的に指定できます。
Negative prompt: blurry, distorted, low quality,
watermark, text, signature, artifacts, oversaturated
3. 重み付けの使用
重要な要素を強調する場合:
(masterpiece:1.3), (ultra detailed:1.2),
photorealistic portrait of elderly craftsman
実用的なパラメータ設定
品質重視の設定
– Steps: 30-50
– CFG Scale: 7-9
– Sampler: DPM++ 2M Karras
– Resolution: 1024×1024以上
速度重視の設定(Turboモデル使用時)
– Steps: 4-6
– CFG Scale: 1-2
– Sampler: Euler a
– Resolution: 768×768
【PR】
面倒な環境構築なしでStable Diffusionを使うなら
月990円〜でAUTOMATIC1111環境がブラウザだけで使える。GPU不要・スマホ対応・最短3分で画像生成開始。LoRA・ControlNet等の主要拡張も対応済み。
高度なテクニック
1. マルチプロンプト手法
複雑な構図を生成する際は、シーンを分割して記述します。
[Foreground] Young woman in red dress standing on cobblestone street
[Midground] Vintage European cafe with outdoor seating, warm lights
[Background] Gothic cathedral silhouette against twilight sky
[Overall] Cinematic photography, shallow depth of field, bokeh
2. Img2Imgでの品質向上
生成画像を元に再生成し、ディテールを向上させます。
- 初回生成(512×512、低解像度)
- Img2Img(1024×1024、Denoising 0.4-0.6)
- 最終調整(細部修正)
3. ControlNetとの組み合わせ
ControlNetを使用すると、ポーズや構図を精密に制御できます。
ControlNet完全ガイドでは、OpenPose、Canny、Depthなど各モデルの使い分けを詳しく解説しています。
4. LoRAカスタマイズ
特定のスタイルやキャラクターを再現したい場合は、LoRAトレーニングが有効です。
LoRAトレーニング入門で、学習手順とパラメータ調整方法を紹介しています。
【PR】SD 3.5の環境構築が難しい場合は「ConoHa AI Canvas」がおすすめです。ブラウザだけでStable Diffusionベースの画像生成が可能で、高性能GPUの購入が不要です。
注意点とトラブルシューティング
VRAMメモリ不足エラー
症状: “CUDA out of memory”エラー
対処法:
– 解像度を下げる(1024×1024 → 768×768)
– バッチサイズを1に設定
– --lowvramまたは--medvramオプションを使用
– Mediumモデルに切り替え
生成品質が低い場合
チェックポイント:
– CFG Scaleが極端に高い/低い(推奨: 7-9)
– Stepsが少なすぎる(最低20以上)
– プロンプトが曖昧すぎる
– モデルが正しくロードされているか確認
ライセンスと商用利用
SD3.5 Large: Stability AI Community Licenseで商用利用可能(年間売上100万ドル未満の企業は無料、それ以上はEnterprise License必要)
SD3.5 Medium/Turbo: 非商用ライセンスのため、商用利用不可
詳細はStability AI公式ライセンスページで確認してください。
FAQ
Q1. Stable Diffusion 3.5とMidjourneyはどちらが良いですか?
用途によります。SD3.5はローカル実行可能でカスタマイズ性が高く、商用利用のコストを抑えられます。Midjourneyは操作が簡単で一貫した高品質な結果が得られます。FLUX vs Midjourney徹底比較では、最新モデルの詳細な比較を行っています。
Q2. SD3.5 LargeとMediumの違いは何ですか?
Largeは8Bパラメータで最高品質、商用利用可能ですが、24GB VRAMが推奨されます。Mediumは2.5Bパラメータで12GB VRAMでも動作しますが、非商用ライセンスです。VRAM制約がある場合や個人利用ならMedium、商用利用や最高品質が必要ならLargeを選択してください。
Q3. 既存のSD1.5/XL用LoRAは使えますか?
SD3.5は全く異なるアーキテクチャ(MMDiT)のため、SD1.5/XL用LoRAは直接使用できません。SD3.5専用にトレーニングし直す必要があります。
Q4. ComfyUIとAutomatic1111、どちらがSD3.5に適していますか?
ComfyUIはSD3.5のMMDiTアーキテクチャに最適化されており、複雑なワークフローを構築できます。Automatic1111は従来のSD1.5/XLに最適化されており、SD3.5対応は限定的です。本格的にSD3.5を活用するならComfyUIを推奨します。
関連記事
- Stable Diffusion完全ガイド – 基本的な使い方とバージョン比較
- 画像生成AI徹底比較 – 主要サービスの特徴と選び方
- Diffusionモデルとは? – 技術的な仕組みの解説
出典
- Stability AI公式ブログ: https://stability.ai/news/stable-diffusion-3-5
- Hugging Face SD3.5ドキュメント: https://huggingface.co/stabilityai/stable-diffusion-3.5-large
- ComfyUI公式リポジトリ: https://github.com/comfyanonymous/ComfyUI


コメント