Stable Diffusion 3.5使い方ガイド｜最新モデルの特徴と実践テクニック

Stable Diffusion 3.5が解決する課題
Stable Diffusion 3.5の概要
1. 主要な特徴
2. 従来モデルとの違い
Stable Diffusion 3.5の導入・セットアップ
実践的な使い方
高度なテクニック
注意点とトラブルシューティング
FAQ
関連記事
出典

Stable Diffusion 3.5が解決する課題

従来のStable Diffusion 1.5やXLでは、複雑な構図や複数オブジェクトの配置、テキストレンダリングの精度に課題がありました。特にプロフェッショナルな用途では、手の描写の不自然さや細部のディテール不足が問題視されていました。

Stable Diffusion 3.5は、これらの課題に対し、新しいアーキテクチャとトレーニング手法により大幅な改善を実現しています。

Stable Diffusion 3.5の概要

主要な特徴

MMDiT（Multimodal Diffusion Transformer）アーキテクチャ
– U-Netではなく、Transformerベースの新設計
– テキストと画像の情報を統合的に処理
– より精密なプロンプト理解と画像生成を実現

3つのモデルバリエーション
– SD3.5 Large（8Bパラメータ）: 最高品質、商用利用可能
– SD3.5 Medium（2.5Bパラメータ）: バランス型
– SD3.5 Large Turbo: 高速生成特化（4ステップで生成可能）

改善されたテキスト生成能力
画像内のテキストレンダリング精度が大幅に向上し、ロゴやタイポグラフィを含む画像生成に対応しました。

従来モデルとの違い

項目	SD 1.5/XL	SD 3.5
アーキテクチャ	U-Net	MMDiT（Transformer）
テキスト精度	低〜中	高
複雑な構図	やや弱い	大幅改善
手の描写	不自然になりやすい	自然な描写
商用利用	XLは制限あり	Largeは可能

参考: Stable Diffusion完全ガイドでは、基本的な使い方とバージョンの歴史を詳しく解説しています。

Stable Diffusion 3.5の導入・セットアップ

必要なスペック

推奨環境
– GPU: NVIDIA RTX 4090（24GB VRAM）以上
– RAM: 32GB以上
– ストレージ: 100GB以上の空き容量

最低環境（Medium/Turboモデル）
– GPU: RTX 3060（12GB VRAM）
– RAM: 16GB
– ストレージ: 50GB

Stability AI公式APIでの利用

最も簡単な導入方法は、Stability AI APIを使用することです。

import requests

response = requests.post(
    "https://api.stability.ai/v2beta/stable-image/generate/sd3",
    headers={
        "authorization": f"Bearer YOUR_API_KEY",
        "accept": "image/*"
    },
    files={"none": ''},
    data={
        "prompt": "A futuristic cityscape at sunset, photorealistic, 8k",
        "model": "sd3.5-large",
        "aspect_ratio": "16:9",
        "output_format": "png"
    },
)

if response.status_code == 200:
    with open("./output.png", 'wb') as file:
        file.write(response.content)

ローカル環境での導入

1. Hugging Faceからモデルをダウンロード

# Hugging Face CLIをインストール
pip install huggingface-hub

# ログイン（事前にHugging Faceアカウントでライセンス同意が必要）
huggingface-cli login

# モデルをダウンロード
huggingface-cli download stabilityai/stable-diffusion-3.5-large

2. ComfyUIでの利用

ComfyUIは、Stable Diffusion 3.5に対応したノードベースのUIです。

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt

# SD3.5モデルを所定のディレクトリに配置
cp ~/stable-diffusion-3.5-large.safetensors ./models/checkpoints/

詳細: ComfyUI完全ガイドで、ワークフロー構築とカスタマイズ方法を解説しています。

実践的な使い方

基本的なプロンプト構造

SD3.5では、詳細で構造化されたプロンプトが効果的です。

推奨プロンプト構造

[主要被写体], [スタイル], [構図・視点], [照明], [品質指定]

例

A Japanese garden with cherry blossoms in full bloom,
traditional ink painting style,
wide angle view from elevated position,
soft morning light filtering through trees,
highly detailed, masterpiece, 8k resolution

プロンプト最適化テクニック

1. 具体的な描写を追加

悪い例:

beautiful landscape

良い例:

Mountain valley at golden hour, snow-capped peaks,
alpine meadow with wildflowers, crystal clear river,
volumetric lighting, cinematic composition

2. ネガティブプロンプトの活用

SD3.5では、ネガティブプロンプトで避けたい要素を明示的に指定できます。

Negative prompt: blurry, distorted, low quality,
watermark, text, signature, artifacts, oversaturated

3. 重み付けの使用

重要な要素を強調する場合:

(masterpiece:1.3), (ultra detailed:1.2),
photorealistic portrait of elderly craftsman

実用的なパラメータ設定

品質重視の設定
– Steps: 30-50
– CFG Scale: 7-9
– Sampler: DPM++ 2M Karras
– Resolution: 1024×1024以上

速度重視の設定（Turboモデル使用時）
– Steps: 4-6
– CFG Scale: 1-2
– Sampler: Euler a
– Resolution: 768×768

【PR】

面倒な環境構築なしでStable Diffusionを使うなら

月990円〜でAUTOMATIC1111環境がブラウザだけで使える。GPU不要・スマホ対応・最短3分で画像生成開始。LoRA・ControlNet等の主要拡張も対応済み。

▶ ConoHa AI Canvasを見る

高度なテクニック

1. マルチプロンプト手法

複雑な構図を生成する際は、シーンを分割して記述します。

[Foreground] Young woman in red dress standing on cobblestone street
[Midground] Vintage European cafe with outdoor seating, warm lights
[Background] Gothic cathedral silhouette against twilight sky
[Overall] Cinematic photography, shallow depth of field, bokeh

2. Img2Imgでの品質向上

生成画像を元に再生成し、ディテールを向上させます。

初回生成（512×512、低解像度）
Img2Img（1024×1024、Denoising 0.4-0.6）
最終調整（細部修正）

3. ControlNetとの組み合わせ

ControlNetを使用すると、ポーズや構図を精密に制御できます。

ControlNet完全ガイドでは、OpenPose、Canny、Depthなど各モデルの使い分けを詳しく解説しています。

4. LoRAカスタマイズ

特定のスタイルやキャラクターを再現したい場合は、LoRAトレーニングが有効です。

LoRAトレーニング入門で、学習手順とパラメータ調整方法を紹介しています。

【PR】SD 3.5の環境構築が難しい場合は「ConoHa AI Canvas」がおすすめです。ブラウザだけでStable Diffusionベースの画像生成が可能で、高性能GPUの購入が不要です。

→ ConoHa AI Canvasで画像生成を試す

注意点とトラブルシューティング

VRAMメモリ不足エラー

症状: “CUDA out of memory”エラー

対処法:
– 解像度を下げる（1024×1024 → 768×768）
– バッチサイズを1に設定
– --lowvramまたは--medvramオプションを使用
– Mediumモデルに切り替え

生成品質が低い場合

チェックポイント:
– CFG Scaleが極端に高い/低い（推奨: 7-9）
– Stepsが少なすぎる（最低20以上）
– プロンプトが曖昧すぎる
– モデルが正しくロードされているか確認

ライセンスと商用利用

SD3.5 Large: Stability AI Community Licenseで商用利用可能（年間売上100万ドル未満の企業は無料、それ以上はEnterprise License必要）

SD3.5 Medium/Turbo: 非商用ライセンスのため、商用利用不可

詳細はStability AI公式ライセンスページで確認してください。

FAQ

Q1. Stable Diffusion 3.5とMidjourneyはどちらが良いですか？

用途によります。SD3.5はローカル実行可能でカスタマイズ性が高く、商用利用のコストを抑えられます。Midjourneyは操作が簡単で一貫した高品質な結果が得られます。FLUX vs Midjourney徹底比較では、最新モデルの詳細な比較を行っています。

Q2. SD3.5 LargeとMediumの違いは何ですか？

Largeは8Bパラメータで最高品質、商用利用可能ですが、24GB VRAMが推奨されます。Mediumは2.5Bパラメータで12GB VRAMでも動作しますが、非商用ライセンスです。VRAM制約がある場合や個人利用ならMedium、商用利用や最高品質が必要ならLargeを選択してください。

Q3. 既存のSD1.5/XL用LoRAは使えますか？

SD3.5は全く異なるアーキテクチャ（MMDiT）のため、SD1.5/XL用LoRAは直接使用できません。SD3.5専用にトレーニングし直す必要があります。

Q4. ComfyUIとAutomatic1111、どちらがSD3.5に適していますか？

ComfyUIはSD3.5のMMDiTアーキテクチャに最適化されており、複雑なワークフローを構築できます。Automatic1111は従来のSD1.5/XLに最適化されており、SD3.5対応は限定的です。本格的にSD3.5を活用するならComfyUIを推奨します。

Stable Diffusion完全ガイド – 基本的な使い方とバージョン比較
画像生成AI徹底比較 – 主要サービスの特徴と選び方
Diffusionモデルとは？ – 技術的な仕組みの解説

出典

Stability AI公式ブログ: https://stability.ai/news/stable-diffusion-3-5
Hugging Face SD3.5ドキュメント: https://huggingface.co/stabilityai/stable-diffusion-3.5-large
ComfyUI公式リポジトリ: https://github.com/comfyanonymous/ComfyUI