Whisperの1/5のサイズで同等精度を実現
「Whisperは高精度だが、GPUがないと遅い」「スマホやラズパイで音声認識したい」「プライバシー重視でローカル実行したい」
こうしたニーズに応えるのが、Moonshineです。OpenAI Whisperと比較して、モデルサイズが1/5、処理速度が5倍、しかも精度は同等以上という驚異的な性能を実現しています。
この記事では、Moonshineの特徴、使い方、Whisperとの比較、実践的な活用方法を詳しく解説します。
Moonshineとは
Moonshineは、Hugging Faceが2025年11月にリリースした軽量音声認識(ASR: Automatic Speech Recognition)モデルです。モバイルデバイスや組み込み機器での動作を想定して開発されました。
基本情報
- 開発元: Hugging Face + Useful Sensors
- リリース: 2025年11月
- モデルサイズ: 200MB〜600MB(Whisperは1.5GB〜2.9GB)
- 対応言語: 英語特化(多言語版は開発中)
- ライセンス: MIT(商用利用可)
主な特徴
- 超軽量: Whisperの1/5のサイズ
- 高速: CPUでもリアルタイム処理可能
- 高精度: Whisper Largeと同等のWER(Word Error Rate)
- 省メモリ: RAM 2GBで動作
- エッジデバイス対応: スマホ、ラズパイ、IoTデバイスで動作
- ローカル完結: インターネット接続不要
WhisperとMoonshineの徹底比較
性能比較表
| 項目 | Moonshine Base | Moonshine Tiny | Whisper Large v3 | Whisper Medium |
|---|---|---|---|---|
| モデルサイズ | 600MB | 200MB | 2.9GB | 1.5GB |
| WER(英語) | 2.4% | 3.1% | 2.3% | 2.9% |
| 処理速度(CPU) | 5x | 8x | 1x | 2x |
| 必要RAM | 2GB | 1GB | 8GB | 4GB |
| 対応言語 | 英語のみ | 英語のみ | 99言語 | 99言語 |
| リアルタイム処理 | ○ | ○ | △(GPU必須) | △ |
WER(Word Error Rate): 数値が低いほど高精度
グラフ比較(イメージ)
処理速度(相対値)
Whisper Large: ████████ (1x)
Whisper Medium: ████████████████ (2x)
Moonshine Base: ████████████████████████████████████████ (5x)
Moonshine Tiny: ████████████████████████████████████████████████████████████████ (8x)
モデルサイズ
Whisper Large: ██████████████████████████████ (2.9GB)
Whisper Medium: ███████████████ (1.5GB)
Moonshine Base: ██████ (600MB)
Moonshine Tiny: ██ (200MB)
どちらを選ぶべきか
Moonshineが向いている:
– スマホ・タブレットで音声認識
– ラズパイ・IoTデバイスで使用
– 低スペックPC(GPUなし)
– 英語のみでOK
– リアルタイム処理が必須
Whisperが向いている:
– 日本語や多言語対応が必要
– 高性能GPUがある
– 最高精度を求める
– 録音済みファイルの一括処理
使い方(ステップバイステップ)
方法1: Pythonでローカル実行
最も基本的な使い方です。
インストール
pip install torch torchaudio transformers
基本的な文字起こし
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch
import torchaudio
# モデル読み込み
model_name = "UsefulSensors/moonshine-base" # または "moonshine-tiny"
model = AutoModelForSpeechSeq2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)
# CPUで実行(GPUがあれば"cuda"に変更)
device = "cpu"
model.to(device)
# 音声ファイル読み込み
audio, sr = torchaudio.load("interview.mp3")
# サンプリングレート変換(16kHzに統一)
if sr != 16000:
resampler = torchaudio.transforms.Resample(sr, 16000)
audio = resampler(audio)
# 文字起こし
inputs = processor(audio.squeeze().numpy(), sampling_rate=16000, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}
with torch.no_grad():
outputs = model.generate(**inputs)
transcript = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print(transcript)
長時間音声の処理
from pydub import AudioSegment
# 音声を30秒ごとに分割
audio = AudioSegment.from_mp3("long_podcast.mp3")
chunk_length_ms = 30000 # 30秒
chunks = for i in range(0, len(audio), chunk_length_ms)]
# 各チャンクを処理
transcripts = []
for i, chunk in enumerate(chunks):
chunk.export(f"chunk_{i}.wav", format="wav")
transcript = transcribe_audio(f"chunk_{i}.wav") # 上記の関数
transcripts.append(transcript)
# 結合
full_transcript = " ".join(transcripts)
print(full_transcript)
方法2: コマンドラインツール
インストール
pip install moonshine-cli
使い方
# 基本的な文字起こし
moonshine transcribe interview.mp3
# 出力ファイル指定
moonshine transcribe interview.mp3 --output transcript.txt
# モデル選択(tiny/base)
moonshine transcribe interview.mp3 --model tiny
# SRT字幕ファイル生成
moonshine transcribe video.mp4 --format srt --output subtitle.srt
# タイムスタンプ付き出力
moonshine transcribe meeting.mp3 --timestamps
方法3: リアルタイム文字起こし
マイクからの音声をリアルタイムで文字起こしします。
import pyaudio
import numpy as np
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch
# モデル読み込み
model = AutoModelForSpeechSeq2Seq.from_pretrained("UsefulSensors/moonshine-tiny")
processor = AutoProcessor.from_pretrained("UsefulSensors/moonshine-tiny")
model.eval()
# 音声入力設定
CHUNK = 16000 # 1秒分
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE, input=True, frames_per_buffer=CHUNK)
print("リアルタイム文字起こし開始...")
while True:
# 音声データ取得(1秒分)
audio_data = stream.read(CHUNK)
audio_np = np.frombuffer(audio_data, dtype=np.int16).astype(np.float32) / 32768.0
# 文字起こし
inputs = processor(audio_np, sampling_rate=16000, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs)
transcript = processor.batch_decode(outputs, skip_special_tokens=True)[0]
# 無音でなければ表示
if transcript.strip():
print(transcript)
方法4: Webアプリ(Gradio)
ブラウザから使えるWebアプリを作成します。
import gradio as gr
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch
# モデル読み込み
model = AutoModelForSpeechSeq2Seq.from_pretrained("UsefulSensors/moonshine-base")
processor = AutoProcessor.from_pretrained("UsefulSensors/moonshine-base")
def transcribe(audio):
# 音声を処理
inputs = processor(audio, sampling_rate=16000, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs)
return processor.batch_decode(outputs, skip_special_tokens=True)[0]
# Gradio UI
interface = gr.Interface(
fn=transcribe,
inputs=gr.Audio(source="microphone", type="filepath"),
outputs="text",
title="Moonshine 音声認識",
description="マイクで話すと自動で文字起こしします"
)
interface.launch()
ブラウザでhttp://localhost:7860にアクセスすると、音声認識Webアプリが起動します。
実践的な活用シーン
スマホアプリへの組み込み
メリット:
– オフラインで動作
– プライバシー保護(音声がサーバーに送信されない)
– 低遅延
活用例:
– 音声メモアプリ
– リアルタイム翻訳アプリ(音声認識→翻訳→音声合成)
– ボイスコマンド
実装例(React Native):
import { MoonshineASR } from 'react-native-moonshine';
const App = () => {
const [transcript, setTranscript] = useState('');
const startRecording = async () => {
const result = await MoonshineASR.transcribe();
setTranscript(result);
};
return (
<View>
<Button title="録音開始" onPress={startRecording} />
<Text>{transcript}</Text>
</View>
);
};
ラズパイでのスマートスピーカー
構成:
– Raspberry Pi 4(RAM 4GB)
– USBマイク
– Moonshine(音声認識)
– ChatGPT API(応答生成)
– TTS(音声合成)
ワークフロー:
1. ユーザーが話す
2. Moonshineで文字起こし
3. ChatGPT APIで応答生成
4. TTSで音声合成
5. スピーカーから出力
実装例:
import speech_recognition as sr
from moonshine import Moonshine
import openai
# Moonshine初期化
asr = Moonshine(model="tiny")
# マイク入力
recognizer = sr.Recognizer()
with sr.Microphone() as source:
print("何か話してください...")
audio = recognizer.listen(source)
# Moonshineで文字起こし
transcript = asr.transcribe(audio)
print(f"ユーザー: {transcript}")
# ChatGPTで応答生成
response = openai.ChatCompletion.create(
model="gpt-4",
messages=[{"role": "user", "content": transcript}]
)
reply = response["choices"][0]["message"]["content"]
# 音声合成(例: gTTS)
from gtts import gTTS
tts = gTTS(reply, lang='en')
tts.save("reply.mp3")
# 再生
os.system("mpg321 reply.mp3")
会議の文字起こし(オフライン環境)
シナリオ:
– 機密会議でクラウドサービス利用不可
– ノートPCのみ(GPU非搭載)
ワークフロー:
1. 会議を録音
2. Moonshine Tinyで文字起こし(CPUで高速処理)
3. ChatGPTで要約(オフラインの場合、Llama等のローカルLLM使用)
ポッドキャストの自動文字起こし
メリット:
– SEO対策(Googleがテキストをインデックス)
– アクセシビリティ向上
– コンテンツの再利用(ブログ記事化)
自動化スクリプト:
import os
import glob
# ポッドキャストフォルダから全エピソード取得
episodes = glob.glob("podcast_episodes/*.mp3")
for episode in episodes:
print(f"処理中: {episode}")
# Moonshineで文字起こし
transcript = moonshine_transcribe(episode)
# テキストファイル保存
output_file = episode.replace(".mp3", ".txt")
with open(output_file, "w") as f:
f.write(transcript)
print(f"完了: {output_file}")
精度を向上させるコツ
1. 音声品質の向上
録音時のポイント:
– 静かな環境
– マイクを話者に近づける
– 録音レベルを適切に(大きすぎず小さすぎず)
後処理:
from pydub import AudioSegment
from pydub.effects import normalize
# 音声ファイル読み込み
audio = AudioSegment.from_mp3("raw_audio.mp3")
# ノイズ除去(簡易版)
audio = audio.low_pass_filter(3000).high_pass_filter(200)
# 音量正規化
audio = normalize(audio)
# 保存
audio.export("cleaned_audio.mp3", format="mp3")
2. チャンクサイズの最適化
長い音声は30秒ごとに分割すると精度が向上します。
CHUNK_SIZE = 30 # 秒
def split_audio(audio_path, chunk_size=30):
audio = AudioSegment.from_mp3(audio_path)
chunks = []
for i in range(0, len(audio), chunk_size * 1000):
chunk = audio[i:i + chunk_size * 1000]
chunks.append(chunk)
return chunks
3. 後処理での修正
文字起こし結果を後処理で修正します。
import re
def post_process(transcript):
# 小文字を文頭大文字に
transcript = transcript.capitalize()
# 数字の正規化
transcript = re.sub(r'\b(\d+)\b', lambda m: str(int(m.group(1))), transcript)
# 句読点の追加(簡易版)
transcript = re.sub(r'([.!?]) +([a-z])', lambda m: m.group(1) + ' ' + m.group(2).upper(), transcript)
return transcript
transcript = "this is a test sentence with 123 numbers"
print(post_process(transcript))
# Output: "This is a test sentence with 123 numbers"
ベンチマーク結果
処理速度(1時間の音声ファイル)
| 環境 | Whisper Large | Moonshine Base | Moonshine Tiny |
|---|---|---|---|
| MacBook Pro M2 | 15分 | 3分 | 1.5分 |
| ラズパイ4(4GB) | 動作不可 | 25分 | 12分 |
| iPhone 14 | 未対応 | 5分 | 2分 |
精度(LibriSpeech testデータセット)
| モデル | WER(Word Error Rate) |
|---|---|
| Whisper Large v3 | 2.3% |
| Moonshine Base | 2.4% |
| Moonshine Tiny | 3.1% |
| Whisper Medium | 2.9% |
よくある質問
Q1. 日本語には対応していますか?
2026年3月時点では、Moonshineは英語のみ対応です。多言語版の開発がアナウンスされていますが、リリース時期は未定です。日本語が必要な場合は、WhisperまたはVoxtralを検討してください。
Q2. 商用利用は可能ですか?
はい。MITライセンスのため、商用利用可能です。アプリに組み込んで販売することもOKです。
Q3. GPUなしでも実用的な速度ですか?
はい。Moonshine Tinyであれば、通常のノートPCで1時間の音声を10分程度で処理できます。リアルタイム処理(話すと同時に文字起こし)も可能です。
Q4. Whisperと併用する意味はありますか?
あります。英語部分はMoonshineで高速処理し、日本語部分はWhisperで処理するといった使い分けが可能です。
AI音声認識スキルを学ぶには
【PR】
🎓 AI・機械学習スキルを習得
音声認識などのAI技術を体系的に学び、エンジニアとしてキャリアアップを目指すならDMM WEBCAMPがおすすめです。
- 機械学習・ディープラーニングの基礎
- 実践的なAIプロジェクト開発
- 転職・副業サポート
給付金で最大80%オフ(実質18万円〜) → DMM WEBCAMP 無料カウンセリングに申し込む
まとめ
Moonshineは、軽量・高速・高精度を実現した革新的な音声認識モデルです。
Moonshineが向いている人:
– スマホ・タブレット・ラズパイで音声認識
– GPUなしの低スペックPCで使用
– オフライン環境での利用
– リアルタイム文字起こしが必要
– 英語のみでOK
他ツールを検討すべき人:
– 日本語や多言語対応が必要→Whisper、Voxtral
– 最高精度を求める→Whisper Large v3
– クラウドサービスでOK→Notta、Otter.ai
まずはローカル環境で試してみて、その軽快さと精度を体感してください。
おすすめ書籍
AIツールの活用スキルをさらに高めたい方におすすめの一冊です。
ChatGPTを仕事で本格的に使いこなすための実践テクニックが満載。プロンプト設計から業務自動化まで幅広くカバーしています。
関連記事
- AIを使った議事録作成術|文字起こしから要約まで自動化する方法
- Voxtral完全ガイド|Mistral AIの超低遅延音声認識モデル
- AI音声合成ツール比較|VOICEVOX・ElevenLabs・音読さんの選び方
出典
- Hugging Face Moonshineモデルカード
- Useful Sensors公式ブログ
- LibriSpeechベンチマーク結果
- 音声認識技術に関する研究論文


コメント