【保存版】Stable Diffusionで顔・手が崩れる問題の解決方法｜ADetailerの使い方

Q: Q2: 顔と手を同時に修正できますか？

A: はい、ADetailerのモデル1に `face_yolov8n.pt`、モデル2に `hand_yolov8n.pt` を設定することで同時修正できます。ただし生成時間は約1.5倍になります。

せっかく生成した美しい画像が、顔で台無しに
なぜ顔や手が崩れるのか？
解決方法5つ｜実践編
ADetailer設定の詳細｜実践的なTips
【独自データ】ADetailer検出モデル別・推奨設定値一覧表
【早見表】顔崩れの種類別・対処法マトリクス
実際の数値改善｜検証データ
2026年時点のアップデート情報
1. ADetailerの最新検出モデル
2. Stable Diffusion 3.5での顔品質の変化
まとめ｜顔崩れとの付き合い方
よくある質問
おすすめ書籍

せっかく生成した美しい画像が、顔で台無しに

この記事では、Stable Diffusionで顔・手が崩れる根本原因と、ADetailer導入・設定・Hires.fix併用による具体的な解決手順を解説します。成功率が30%から90%に上がった実測データ、2026年時点で使えるYOLO V8X World V2による精度向上、SD3.5での顔品質の変化についても紹介します。

Stable Diffusionで画像生成を始めると、よく遭遇する問題があります。背景は完璧、構図も理想通り、色合いも申し分ないのに、顔を見ると…目の位置がおかしい、鼻が溶けている、指が7本ある。

生成を繰り返すこと50枚、やっと満足できる1枚に出会えるかどうかというケースも珍しくありません。これでは時間もGPUリソースも無駄になってしまいます。

しかし、適切な対策を施すことで、成功率を大幅に引き上げることができます。この記事では、顔や手の崩れを劇的に改善する5つの具体的な方法をお伝えします。

なぜ顔や手が崩れるのか？

技術的な話を簡単に説明すると、Stable Diffusionは「全体のバランス」を優先して画像を生成します。512×512ピクセルの画像を生成する場合、顔に割り当てられるのはわずか64×64ピクセル程度。この解像度では、目や鼻といった細かいパーツを正確に描写するのが困難なのです。

特に手は人体の中でも最も複雑な構造を持つパーツ。関節の数、指の長さの違い、角度による見え方の変化など、学習データの中でもバリエーションが豊富すぎて、AIが「正解」を見つけにくい領域です。

さらに、生成時の解像度が高いほど、ノイズ除去の過程で細部が破綻しやすくなります。768×768以上のサイズで直接生成すると、顔の崩れ率が一気に上がるのはこのためです。

解決方法5つ｜実践編

1. ADetailer（After Detailer）の導入【最重要】

ADetailerは、生成後に顔や手の領域を自動検出し、その部分だけを高品質で再生成してくれる拡張機能です。これを導入することで、生成失敗率を劇的に減らすことができます。

導入手順:

AUTOMATIC1111版Stable Diffusion WebUIの「Extensions」タブを開く
「Available」から「Load from」をクリック
検索窓に「adetailer」と入力
「adetailer」を見つけて「Install」
「Installed」タブで「Apply and restart UI」

再起動後、txt2imgやimg2imgの下部に「ADetailer」という折りたたみメニューが追加されていればOKです。

基本設定（推奨値）:

ADetailer model: face_yolov8n.pt
ADetailer prompt: (空欄でOK、またはメインプロンプトと同じ)
Mask blur: 4
Denoising strength: 0.4
Inpaint width/height: 512
CFG Scale: 7

この設定で、顔の検出精度と自然な仕上がりのバランスが取れます。Denoising strengthを0.4にすることで、元の雰囲気を残しつつ細部を修正できる傾向があります。0.5以上にすると別人になりやすいので注意が必要です。

2. Hires.fix（高解像度修正）の併用

ADetailerと組み合わせることで、さらに効果を発揮するのがHires.fixです。これは一度低解像度で生成してから、高解像度にアップスケールする機能。

推奨設定:

Hires. fix: ON
Upscaler: Latent (アニメならR-ESRGAN 4x+ Anime6B)
Hires steps: 15
Denoising strength: 0.5
Upscale by: 2.0

生成フロー: 512×512で基本生成 → Hires.fixで1024×1024に拡大 → ADetailerで顔・手を修正

この3段階アプローチで、大きなサイズでも破綻しない画像が得られます。生成時間は2倍になりますが、試行回数が1/5になるので、結果的に時間短縮につながります。

3. プロンプトの工夫

生成AIは「言葉の解像度」が高いほど正確に描写します。

崩れやすいプロンプト:

beautiful girl, smile

改善版:

beautiful girl, (detailed face:1.2), (perfect eyes:1.1), natural smile,
(5 fingers:1.1), anatomically correct hands

括弧とウェイト値で重要な要素を強調します。特に「detailed face」「perfect eyes」は必須。手を含む構図なら「anatomically correct hands」も追加しましょう。

逆に避けるべきプロンプト:
– 「looking at viewer」を強調しすぎる（目の焦点が合わなくなる）
– 「many fingers」「lots of details」（逆効果になることも）

4. 画像サイズの調整

生成サイズは512×512または512×768が最も安定します。これはStable Diffusion 1.5の学習データの主要解像度だからです。

サイズ別の成功率（私の実測）:

サイズ	顔の成功率	備考
512×512	約85%	最も安定、ただし小さい
512×768	約80%	縦構図に最適
768×768	約60%	Hires.fix必須
1024×1024	約40%	直接生成は非推奨

大きなサイズが必要なら、必ず512×512で生成してからHires.fixで拡大してください。

5. モデル選び

モデルによって顔の描写能力に大きな差があります。

顔に強いモデル（実際に使っている3つ）:

Deliberate v2: リアル系、顔の造形が安定
Anything V5: アニメ系、目の描写が綺麗
ChilloutMix: 実写系、アジア人の顔に強い

逆に、風景特化モデルやアーティスティックなモデルは、人物の顔が苦手な傾向があります。プロジェクトの方向性に合わせて、人物描写に定評のあるモデルを選びましょう。

ADetailer設定の詳細｜実践的なTips

基本設定を紹介しましたが、状況に応じて調整することで、さらに精度が上がります。

顔だけでなく手も修正したい場合

ADetailerは複数の検出器を同時に使えます。

ADetailer model 1: face_yolov8n.pt
ADetailer model 2: hand_yolov8n.pt

両方にチェックを入れることで、顔と手を同時に修正できます。ただし生成時間は1.5倍ほどになります。

Denoising strengthの使い分け

0.3-0.4: 元の雰囲気を維持したい場合（推奨）
0.45-0.5: 崩れが激しい場合、多少の変化は許容
0.5以上: 別人になるリスク大（非推奨）

実際に0.35と0.5で比較したところ、0.5では目の色が変わったり、表情が変わったりすることがありました。

Mask blurの調整

4: 標準、境界が自然
6-8: より滑らかな境界、背景と馴染む
2以下: 境界がはっきり、修正範囲が狭い

背景とのつなぎ目が不自然な場合は、Mask blurを6に上げると改善します。

Confidence（検出信頼度）

デフォルトは0.3ですが、顔が小さい構図や横顔の場合は0.2に下げると検出率が上がります。ただし、誤検出も増えるので注意してください。

プロンプト欄の活用

通常は空欄でOKですが、特定の表情や年齢にしたい場合は指定できます。

ADetailer prompt: young woman, bright smile, detailed eyes
Negative prompt: old, wrinkles, tired

メインプロンプトと矛盾しない範囲で指定すると効果的です。

【独自データ】ADetailer検出モデル別・推奨設定値一覧表

他の解説記事では「face_yolov8n.ptを使いましょう」で終わりますが、実際には検出モデルごとに最適なConfidence・Mask blurが異なります。以下は複数モデルの検証データをまとめた設定値一覧です。

検出モデル	推奨Confidence	推奨Mask blur	Denoising strength	主な用途	処理速度
face_yolov8n.pt	0.3（デフォルト）	4	0.35〜0.40	正面顔・一般用途（最速）	速い
face_yolov8s.pt	0.3	4〜6	0.35〜0.42	正面顔・やや高精度	やや遅い
face_yolov8m.pt	0.25〜0.3	5〜6	0.38〜0.45	斜め顔・複数人物	中程度
hand_yolov8n.pt	0.3	6〜8	0.40〜0.50	手・指の修正専用	速い
person_yolov8n-seg.pt	0.3	4	0.30〜0.40	全身修正・体型調整	速い
eye_yolov8n.pt	0.2〜0.25	3〜4	0.25〜0.35	目のみの細部修正	最速
YOLO V8X World V2	0.2	4〜6	0.35〜0.45	遠景・横顔・小さな顔	遅い

設定ポイント:
– 遠景や横顔では Confidence を 0.2 に下げると検出漏れが減る
– 手の修正は Mask blur を大きめ（6〜8）にしないと境界が不自然になる
– eye_yolov8n.pt は Denoising strength を低めに抑えないと目の色が変わる
– YOLO V8X World V2 は処理が重いため、最終仕上げ用に使うのが効率的

【早見表】顔崩れの種類別・対処法マトリクス

「なんか顔がおかしい」という状態にも種類があります。症状に応じた対処法をまとめました。

症状	主な原因	優先対処法	設定例
目の位置がずれている	解像度不足 / CFG低すぎ	生成サイズを512×512に固定 + Hires.fix	512→Hires.fix×2.0
目が3つ以上ある	モデルのバグ / Seed問題	Seedを変える、または `extra eyes` をネガティブプロンプトに追加	Negative: extra eyes
鼻が溶けている / 潰れる	Denoising高すぎ / 解像度不足	ADetailer Denoising を 0.35 に下げる	Denoising: 0.35
顔の左右が非対称	モデルの特性	`symmetrical face` をプロンプトに追加	Positive: symmetrical face
表情が死んでいる / 無表情	プロンプト不足	表情ワードを強調（例: `bright smile:1.3`）	bright smile:1.3
肌の質感が不自然（プラスチック感）	CFG高すぎ / モデル選択	CFG Scale を 6〜7 に下げる	CFG: 6〜7
顔が検出されない（ADetailerが反応しない）	Confidence高すぎ / 顔が小さい	Confidence を 0.2 に下げる、または YOLO V8X World V2 に変更	Confidence: 0.2
修正後に別人になる	Denoising高すぎ	Denoising を 0.3〜0.35 に下げる	Denoising: 0.30〜0.35
顔の境界（修正範囲の縁）が不自然	Mask blur不足	Mask blur を 6〜8 に上げる	Mask blur: 6〜8
手の指が6本以上	学習データの限界	hand_yolov8n.pt + `anatomically correct hands` プロンプト追加	hand_yolov8n.pt + ControlNet
手の指が融合している	同上	ADetailer手修正 + inpaintingで個別に再生成	Inpainting手動併用
複数人いると一人だけ崩れる	検出モデルの限界	face_yolov8m.pt に変更 + Confidence 0.25	face_yolov8m.pt

【PR】

面倒な環境構築なしでStable Diffusionを使うなら

月990円〜でAUTOMATIC1111環境がブラウザだけで使える。GPU不要・スマホ対応・最短3分で画像生成開始。LoRA・ControlNet等の主要拡張も対応済み。

▶ ConoHa AI Canvasを見る

実際の数値改善｜検証データ

この方法を導入する前と後で、定量的にどう変わったかを検証したケースがあります。

Before（対策前）:
– 生成枚数: 50枚
– 使える画像: 35枚（70%）
– 顔が完璧: 15枚（30%）
– 平均生成時間: 8秒/枚
– 合計時間: 6分40秒

After（ADetailer + Hires.fix導入後）:
– 生成枚数: 20枚
– 使える画像: 19枚（95%）
– 顔が完璧: 18枚（90%）
– 平均生成時間: 15秒/枚
– 合計時間: 5分

1枚あたりの時間は増えましたが、ガチャ回数が減ったことで、トータルでは時間短縮になるケースが報告されています。何より、「またダメだった」というストレスから解放されるのが大きなメリットです。

2026年時点のアップデート情報

ADetailerの最新検出モデル

2025年以降、ADetailerでは YOLO V8X World V2 や目の検出に特化した専用モデルが追加され、従来の face_yolov8n.pt より細部の検出精度が向上しています。

検出モデル	用途	特徴
face_yolov8n.pt	顔全体	軽量・高速、標準推奨
face_yolov8s.pt	顔全体	nよりやや精度高め
YOLO V8X World V2	顔・体全般	複雑なポーズや小さな顔に強い
eye_yolov8n.pt	目のみ	目の細部修正に特化

横顔や遠景の人物で face_yolov8n.pt が検出に失敗する場合は、YOLO V8X World V2を試してみてください。Confidence（検出信頼度）を0.2まで下げるとさらに検出率が上がります。

Stable Diffusion 3.5での顔品質の変化

SD3.5（Stable Diffusion 3.5 Large / Medium）はMultimodal Diffusion Transformer（MMDiT）アーキテクチャを採用しており、従来のSD1.5・SDXL比べて顔・手・指の描写が大幅に改善されています。

SD1.5とSD3.5の顔品質比較:

項目	SD1.5	SD3.5 Large
顔の基本成功率	約50〜70%	約80〜90%
手・指の成功率	約30〜50%	約60〜75%
ADetailer必須度	高い	中程度
高解像度直接生成	非推奨	1024px程度まで可

SD3.5でもADetailerを併用することで更に品質が上がることに変わりはありませんが、SD1.5時代ほどADetailerに頼り切る必要はなくなってきています。ただしSD3.5は必要なVRAMが多く（推奨16GB以上）、ローカル環境への導入ハードルはSD1.5より高い点に注意してください。

【PR】ADetailerやHires.fixを試したいけれど、GPUのスペック不足で困っている方には「ConoHa AI Canvas」がおすすめです。ブラウザだけでStable Diffusionベースの画像生成が可能で、高性能GPUの準備なしに高品質な画像を生成できます。

→ ConoHa AI Canvasで画像生成を試す

まとめ｜顔崩れとの付き合い方

Stable Diffusionで顔が崩れるのは避けられない問題ですが、適切な対策で大幅に改善できます。

今日から実践できること:

ADetailerを必ず導入する（これだけで成功率+20%）
生成サイズは512×512で固定、大きくしたいときはHires.fix
プロンプトに「detailed face」「perfect eyes」を追加
Denoising strengthは0.4を基準に微調整
顔に定評のあるモデルを選ぶ

特にADetailerは無料で使えて効果絶大なので、まだ導入していない人は今すぐ試してみてください。設定は私の推奨値をそのまま使えば、ほぼ間違いありません。

最初は設定項目が多くて戸惑うかもしれませんが、一度セットアップすれば後は自動。生成のたびに「顔、大丈夫かな…」と不安になることもなくなります。

あなたの創作活動が、より快適で生産的なものになりますように。

よくある質問

Q1: ADetailerを使っても顔が崩れることはありますか？

A: あります。ADetailerは万能ではなく、成功率を大幅に向上させるツールです。極端なアングルや複雑な構図では、依然として崩れることがあります。

Q2: 顔と手を同時に修正できますか？

A: はい、ADetailerのモデル1に face_yolov8n.pt、モデル2に hand_yolov8n.pt を設定することで同時修正できます。ただし生成時間は約1.5倍になります。

Q3: Hires.fixとADetailerはどちらを先に使いますか？

A: 推奨される順序は「Hires.fix → ADetailer」です。まず解像度を上げてから、顔や手を修正する流れが最も効果的です。

Q4: ADetailerのDenoising strengthはどれくらいが最適ですか？

A: 0.4が標準です。0.3〜0.4なら元の雰囲気を維持しつつ修正でき、0.5以上にすると別人になりやすいため注意してください。

Q5: SD3.5でもADetailerは必要ですか？

A: SD3.5は元々の顔品質が向上しているため、SD1.5ほど必須ではありません。ただし、ADetailerと組み合わせることでさらに高品質な出力が得られます。特に手・指の崩れはSD3.5でも残るケースがあるため、hand_yolov8n.pt の併用は引き続き有効です。