Stable Diffusionの音楽版が登場
「動画のBGMを探すのに時間がかかる」「著作権フリーの効果音が見つからない」「イメージ通りの音楽が欲しい」
画像生成AIのStable Diffusionで知られるStability AIが、音楽生成分野に参入しました。それがStable Audioです。
テキストプロンプトを入力するだけで、BGMや効果音を数秒で生成できます。この記事では、Stable Audioの使い方、料金プラン、実践的な活用方法を詳しく解説します。
Stable Audioとは
Stable Audioは、Stability AI社が開発したAI音楽生成ツールです。2023年9月にリリースされ、2026年現在も継続的に機能が追加されています。
基本情報
- 開発元: Stability AI(Stable Diffusion開発元)
- リリース: 2023年9月
- 生成方式: テキストプロンプト→音楽
- 最大長: 90秒(Proプラン)、3分(Open版・実験的)
- 出力形式: MP3, WAV
主な特徴
- プロンプトベースの生成: 「穏やかなピアノ曲」「激しいロックギター」など自然言語で指示
- 長さの指定: 秒単位で楽曲の長さを指定可能
- 高音質: 44.1kHz、ステレオ出力
- 商用利用可: Proプランで商用ライセンス取得
- Stable Diffusion連携: 画像と音楽を統合したコンテンツ制作
Stable Audioの種類
Stable Audioには2つのバージョンがあります。
Stable Audio 2.0(商用版)
特徴:
– 最大90秒の楽曲生成
– 高品質なBGM・効果音
– 商用ライセンス付き
– APIアクセス(Proプラン)
対象:
– 企業の動画制作
– ゲーム開発
– 広告制作
Stable Audio Open(オープンソース版)
特徴:
– 最大45秒の楽曲生成(実験的に3分も可能)
– オープンソースライセンス
– ローカル実行可能
– 非商用限定
対象:
– 研究者
– 実験的な利用
– プライバシー重視の個人
この記事では、主に商用版(Stable Audio 2.0)を解説します。
料金プラン
無料プラン(Free)
- 月20トラック生成
- 最大45秒
- 非商用のみ
- クレジット表記必須
Professionalプラン(.99/月)
- 月500トラック生成
- 最大90秒
- 商用利用可
- クレジット表記不要
- 優先生成キュー
Proプラン(カスタム料金)
- 無制限生成
- API利用
- カスタムモデルトレーニング
- 専任サポート
年間契約で約20%割引が適用されます。
使い方(ステップバイステップ)
STEP 1: アカウント作成
- Stable Audio公式サイトにアクセス
- 「Sign Up」をクリック
- メールアドレスまたはGoogleアカウントで登録
- 無料プランで開始
STEP 2: プロンプト入力
プロンプト入力欄に、生成したい音楽の説明を入力します。
基本的なプロンプト例:
穏やかなピアノとストリングスの曲、瞑想向け
詳細なプロンプト例:
Genre: Ambient
Mood: Calm, Peaceful
Instruments: Piano, Strings, Soft Pads
Tempo: 60 BPM
Duration: 45 seconds
Use: Meditation background music
STEP 3: 長さの指定
スライダーで楽曲の長さを指定します。
- 無料プラン: 最大45秒
- Proプラン: 最大90秒
STEP 4: 生成
「Generate」ボタンをクリックすると、約10〜30秒で楽曲が生成されます。
STEP 5: プレビューとダウンロード
- 生成された楽曲を再生
- 気に入らなければ「Regenerate」で再生成
- 良ければ「Download」でMP3/WAVファイルをダウンロード
効果的なプロンプトの書き方
基本構造
良いプロンプトの基本構造は以下の通りです。
[ジャンル], [雰囲気/ムード], [楽器], [テンポ], [用途]
具体例
1. YouTube動画のオープニング
Upbeat electronic music, energetic and exciting, synthesizers and drums, 128 BPM, perfect for YouTube intro
2. ホラーゲームの効果音
Dark ambient soundscape, eerie and unsettling, deep drones and occasional metallic sounds, slow tempo, horror game background
3. カフェのBGM
Smooth jazz, relaxed and cozy, piano and soft saxophone, 90 BPM, coffee shop ambience
4. 企業プレゼンテーション
Corporate background music, professional and inspiring, piano and strings, 100 BPM, business presentation
プロンプトのコツ
1. ジャンルを明確に
良い例:
– “Ambient electronic”
– “Acoustic folk”
– “Orchestral cinematic”
悪い例:
– “Good music”
– “Nice sound”
2. 楽器を具体的に
良い例:
– “Piano, acoustic guitar, light drums”
– “Synthesizer, bass, electronic beats”
悪い例:
– “Some instruments”
3. ムードを表現
感情表現の例:
– Happy: cheerful, joyful, uplifting
– Sad: melancholic, somber, emotional
– Intense: energetic, powerful, dramatic
– Calm: peaceful, relaxing, serene
4. テンポを指定
- Slow: 60-80 BPM
- Medium: 90-110 BPM
- Fast: 120-140 BPM
- Very Fast: 150+ BPM
5. 参考曲スタイル(慎重に)
特定アーティストの模倣は避けつつ、スタイルを参考にすることは可能です。
OK:
– “80s synthwave style”
– “Hans Zimmer-inspired orchestral” (スタイルのみ)
NG:
– “Exact copy of [specific song]”
【PR】
面倒な環境構築なしでStable Diffusionを使うなら
月990円〜でAUTOMATIC1111環境がブラウザだけで使える。GPU不要・スマホ対応・最短3分で画像生成開始。LoRA・ControlNet等の主要拡張も対応済み。
実践的な活用シーン
YouTube動画のBGM
メリット:
– 著作権の心配なし
– 動画の雰囲気に完全マッチ
– 短時間で複数パターン生成可能
Tips:
– オープニング、本編、エンディングで異なる曲を生成
– 同じプロンプトで複数生成し、最良のものを選ぶ
– テンポを動画の展開に合わせる(説明パート→遅め、アクションパート→速め)
ゲーム開発
メリット:
– シーンに応じた効果音を即座に作成
– ループ素材の生成
– プロトタイプ段階でのテスト音楽
Tips:
– ループさせる場合、45秒版を生成してつなげる
– 効果音は「sound effect」をプロンプトに明記
– 複数バリエーションを作成して使い分け
ポッドキャストのイントロ/アウトロ
メリット:
– ブランディングに合った音楽
– 一貫性のある雰囲気
– コスト削減
Tips:
– 短め(10〜15秒)に設定
– 番組のトーンに合わせた音楽
– 同じプロンプトで定期的に再生成(マンネリ防止)
企業の動画コンテンツ
メリット:
– プロフェッショナルな仕上がり
– 商用ライセンスで安心
– 短納期に対応
Tips:
– 企業イメージに合った音楽(信頼感→低音多め、革新性→電子音)
– 動画の長さに合わせて生成
– 複数候補を作成して社内で選定
Stable AudioとSuno/Udoの違い
比較表
| 項目 | Stable Audio | Suno | Udio |
|---|---|---|---|
| ボーカル | なし | あり | あり |
| 最大長 | 90秒 | 4分 | 3分 |
| 用途 | BGM・効果音 | 楽曲全般 | 楽曲全般 |
| 料金 | $11.99/月 | $10/月 | $10/月 |
| 生成速度 | 速い | やや遅い | やや遅い |
| 商用利用 | Pro必須 | Pro必須 | Standard必須 |
どちらを選ぶべきか
Stable Audioが向いている:
– BGMや効果音だけが必要
– 短い楽曲を大量生成したい
– 高速生成を重視
Suno/Udoが向いている:
– ボーカル入り楽曲が必要
– 長尺の楽曲を作りたい
– 歌詞も含めて作曲したい
ローカル実行(Stable Audio Open)
プライバシーを重視する方や、自由にカスタマイズしたい方は、オープンソース版をローカル環境で実行できます。
必要環境
- Python 3.9以上
- NVIDIA GPU(VRAM 8GB以上推奨)
- CUDA対応環境
インストール手順
# リポジトリをクローン
git clone https://github.com/Stability-AI/stable-audio-tools.git
cd stable-audio-tools
# 依存関係をインストール
pip install -r requirements.txt
# モデルをダウンロード
huggingface-cli login
huggingface-cli download stabilityai/stable-audio-open
# 実行
python scripts/generate.py --prompt "Calm ambient music with piano"
メリット
- 無制限生成
- オフライン実行可能
- カスタムモデルのトレーニング
- プライバシー保護
デメリット
- 技術的ハードルが高い
- GPU必須
- セットアップに時間がかかる
よくある質問
Q1. 生成した音楽の著作権は?
Professionalプラン以上では、生成した音楽の商用利用権がユーザーに付与されます。無料プランは非商用限定で、クレジット表記(”Generated with Stable Audio”)が必要です。
Q2. ボーカル入り楽曲は作れますか?
2026年時点では、Stable Audioはインストゥルメンタル(楽器のみ)に特化しており、ボーカル生成には対応していません。歌入り楽曲が必要な場合は、SunoやUdioを検討してください。
Q3. 生成した音楽をループさせる方法は?
Stable Audioは自動的にループ対応した音楽を生成する機能はありません。ただし、Audacityなどの音声編集ソフトで、始点と終点がスムーズにつながるよう編集することでループ化できます。
Q4. プロンプトは日本語でも大丈夫ですか?
現状、英語プロンプトの方が精度が高いです。日本語でも動作しますが、英語に翻訳してから入力することをおすすめします。
AI音楽生成スキルを学ぶには
【PR】
🎓 音楽制作・動画編集スキルを習得
AI音楽ツールを活用し、動画制作で副業・転職を目指すならDMM WEBCAMPがおすすめです。
- 動画編集・音声編集の実践スキル
- 現役クリエイターからの直接指導
- ポートフォリオ制作サポート
給付金で最大80%オフ(実質18万円〜) → DMM WEBCAMP 無料カウンセリングに申し込む
まとめ
Stable Audioは、BGMや効果音を高速生成できる強力なツールです。
Stable Audioが向いている人:
– 動画クリエイター(YouTube、企業PR)
– ゲーム開発者
– ポッドキャスター
– BGM専門で十分な人
他ツールを検討すべき人:
– ボーカル入り楽曲が必要→Suno, Udio
– 長尺の楽曲が必要→Suno, Udio
– 既存の音楽素材で十分→Soundraw
まずは無料プランで試してみて、BGM・効果音生成の効率化を体感してください。
おすすめ書籍
AIツールの活用スキルをさらに高めたい方におすすめの一冊です。
ChatGPTを仕事で本格的に使いこなすための実践テクニックが満載。プロンプト設計から業務自動化まで幅広くカバーしています。
関連記事
出典
- Stable Audio公式サイト・ドキュメント
- Stability AI利用規約
- Stable Audio Open GitHubリポジトリ
- AI音楽生成技術に関する論文・記事


コメント