Speech Translation On-Device AI Benchmark Qwen3 ASR Whisper SeamlessM4T Japanese English Edge AI

音声翻訳:英日双方向翻訳におけるQwen3-ASR vs Whisper

Akinori Nakajima - VoicePing 4 分で読めます
音声翻訳:英日双方向翻訳におけるQwen3-ASR vs Whisper

英日双方向音声翻訳モデルのベンチマーク比較。Qwen3-ASR(1.7Bパラメータ、最高品質)とDistilled Whisper(756M、4倍高速)をOpenAI Whisper large-v3およびMeta SeamlessM4T v2と比較評価。

モデル(Hugging Face):

推論コード(GitHub):

学習スクリプトはこれらのリポジトリには含まれていません。

概要

本研究では、英日双方向音声翻訳モデルを2つ紹介します。(1) Qwen3-ASR EN-JA(1.7Bパラメータ)はQwen3-ASR-1.7Bをベースに、約127万の翻訳ペアを用いた全パラメータSFTでファインチューニングし、EN→JAで4.2/5、JA→ENで4.0/5のスコアを達成。(2) Whisper EN-JA(756Mパラメータ)はWhisper large-v2をDistillしたモデルで、4層デコーダを持ち、212 tok/sを実現(Qwen3-ASRの4.6倍高速)。両モデルをFLEURSテストセットでOpenAI Whisper large-v3およびMeta SeamlessM4T v2 Largeと比較評価しました。品質はLLMジャッジ(Claude Opus 4.6)による5段階評価を採用。各リポジトリでの評価は独立して実施されており、テーブル間のスコアは直接比較できません。

開発の動機

英日間の音声翻訳において、開発者は2つのトレードオフに直面します。ビジネスコミュニケーションや安全性が重視される場面では高品質な翻訳が必要ですが、エッジデバイスでのリアルタイム対話には高速な翻訳が求められます。既存のモデルは英日双方向に対応していない場合(Whisper large-v3は日本語出力に非対応)や、オンデバイスでの展開には遅すぎる場合があります。

本研究では、この言語ペアに特化した速度と品質のトレードオフを定量化するため、品質重視のアーキテクチャ(Qwen3-ASR、1.7B)と速度重視のアーキテクチャ(Distilled Whisper、756M)の2つをファインチューニングし、既存のベースラインと比較評価します。これにより、デプロイメントの制約に応じた適切な選択が可能になります。

評価方法

両モデルはFLEURSテストサンプルを用いて、両方向の翻訳を評価しました。品質はLLMジャッジ(Claude Opus 4.6)による1〜5段階評価(正確性+流暢性)で測定。速度はNVIDIA RTX PRO 6000上でbfloat16を使用して計測。各リポジトリでの評価は独立して実施されており、テーブル間のスコアは直接比較できません。詳細な方法論は付録を参照してください。

結果

Qwen3-ASR評価(4モデル比較)

Qwen3-ASR 品質・速度比較

モデルパラメータ数EN→JAJA→EN速度 (tok/s)
OpenAI Whisper large-v31.55BN/A3.2/551.0
Meta SeamlessM4T v2 Large1.50B3.8/53.0/548.6
Whisper EN-JA Translation(本研究)756M2.6/52.4/5212.1
Qwen3-ASR EN-JA Translation(本研究)1.7B4.2/54.0/545.8

FLEURSテストサンプルによる品質評価(1〜5段階:正確性+流暢性)。速度はNVIDIA GPUでbfloat16を用いて計測。全スコアはQwen3-ASRリポジトリの評価に基づく。

Whisper EN-JA評価(3モデル比較)

Whisper EN-JA 品質・速度比較

モデルパラメータ数EN→JAJA→EN速度 (tok/s)
OpenAI Whisper large-v31.55BN/A3.6/551.0
Meta SeamlessM4T v2 Large1.50B3.8/54.4/548.6
Whisper EN-JA Translation(本研究)756M3.4/53.4/5212.1

全スコアはWhisper EN-JAリポジトリの評価に基づく。評価サンプルとスコアリング方法が異なるため、上のテーブルのベースラインスコアとは異なります。

速度比較

モデルパラメータ数速度 (tok/s)相対速度
Qwen3-ASR EN-JA(本研究)1.7B45.81.0x
Meta SeamlessM4T v2 Large1.50B48.61.1x
OpenAI Whisper large-v31.55B51.01.1x
Whisper EN-JA(本研究)756M212.14.6x

Distilled Whisperモデルは、パラメータ数が半分(756M vs 1.7B)でありながらQwen3-ASRの4.6倍のスループットを達成しており、低レイテンシが求められるデプロイメントに適しています。

モデルアーキテクチャ

  • Qwen3-ASR EN-JA(1.7B) — 品質重視。Qwen3-ASR-1.7Bをベースに、約127万の英日翻訳ペアで全パラメータSFTを実施。オーディオエンコーダ+言語モデルのアーキテクチャ。
  • Whisper EN-JA(756M) — 速度重視。Whisper large-v2をDistill:完全な32層エンコーダ(フリーズ)+4層デコーダ(32層から削減)により、パラメータ数半減で4.6倍高速な推論を実現。

学習ハイパーパラメータ、VRAM使用量、推論の詳細は以下の付録を参照してください。

翻訳例

FLEURSテストセットサンプルによる比較:

EN → JA

ソース(EN音声)SeamlessM4T v2Whisper EN-JA(本研究)Qwen3-ASR EN-JA(本研究)
through the night between 150 and 200 copies were made now known as dunlap broadsides今ではダンラップ・ブロードサイズとして知られる 150 枚から 200 枚のコピーが作られました百五十から二百までのコピーが生成されました。150から200本のコピーが作られました。これらは今では「Dunlap Broadside」として知られています。
the find also grants insight into the evolution of feathers in birdsこの発見は羽の進化と鳥の進化についても洞察を深めますこの発見は、鳥の羽の形にも影響を与えます。この発見は、羽や鳥の進化についても洞察を与えてくれます。
many people don’t think about them as dinosaurs because they have feathers and can fly羽があって飛べるから 恐とは思わない人も多い多くの人々は、恐竜とは思わない。なぜなら、恐竜には羽があり、飛ぶことができるからです。(Qwen3評価セットに含まれず)

JA → EN

ソース(JA音声)Whisper large-v3Whisper EN-JA(本研究)Qwen3-ASR EN-JA(本研究)
残念ながら 運転手の行動を100%の確率で予測することはできないので 交通の流れを研究することは困難ですUnfortunately, it is difficult to predict the behavior of the driver with 100% probability, so it is difficult to study the flow of traffic.Unfortunately, it’s impossible to predict the behavior of drivers with 100% certainty. Therefore, it’s difficult to study the flow of traffic.Unfortunately, it’s not possible to predict the actions of drivers with 100% certainty. Therefore, it’s difficult to study the flow of traffic.
夜空の下でピラミッドに映像が浮かび ピラミッドが次々とライトアップされますThe image of the pyramid is reflected under the night sky, and the pyramid is lighted up one after another.The pyramid is lit up one after another.Under the night sky, images of pyramids are illuminated. The pyramids are lit up one after another.
キルヒネル夫人は アルゼンチン劇場で大統領選に出馬するという意向を表明しましたMrs. Kirchner expressed her intention to appear in the presidential election at the Argentine theater.Kylhine announced her intention to run for president in the Argentina theater.Mrs. Kirchner announced her intention to run for president at the Alzen Theatre.

上記の例から、Qwen3-ASRはより完全で文脈に即した翻訳を生成しており、特にEN→JAでは固有名詞や文構造が保持されています。Whisper EN-JAは詳細を省略する傾向がありますが、流暢性は維持されています。なお、EN→JAの1サンプルはQwen3の評価セットに含まれていないため、比較は部分的です。

制約事項

  • LLMによる品質評価: スコアはClaude Opus 4.6によるもので、人間の評価者によるものではありません。LLMジャッジには、人間の翻訳品質評価とは異なる体系的なバイアスが存在する可能性があります。
  • 評価の独立実施: 2つのリポジトリはFLEURSの異なるサブセットと異なるスコアリングを使用しているため、ベースラインスコア(SeamlessM4Tなど)はテーブル間で異なり、直接比較はできません。
  • 単一言語ペア: 結果は英日のみに適用され、他の言語ペアへの一般化は保証されません。
  • GPU環境での速度: 速度はNVIDIA GPU上でbfloat16を用いて計測。モバイルCPU/NPUでのオンデバイス性能は大幅に異なります。

今後の研究

  • より小型の品質重視モデル: より小さなQwen3-ASRバリアント(例:Qwen3-ASR-0.6B)や将来の1B未満バリアント(0.8Bリリースなど)を評価し、1.7Bとの品質/速度/メモリのトレードオフを定量化。
  • 統一評価分割: すべてのモデルを1つの固定FLEURSサブセットと1つのスコアリングパイプラインで再評価し、品質スコアを直接比較可能に。
  • 人間による評価プロトコル: バイリンガルの人間評価者と評価者間一致度の報告を追加し、LLMジャッジの結果を検証。
  • 同時翻訳のレイテンシ: tok/sだけでなく、リアルタイム使用のためのストリーミング/同時翻訳指標を用いた翻訳遅延の測定。
  • オンデバイスデプロイメントのベンチマーク: Android/iOS NPUおよびCPU上で同様の比較を実施(メモリおよびエネルギー消費を含む)。

結論

英日間の音声翻訳は、2つの異なるトレードオフで実現可能です:

  • 速度重視:Whisper EN-JA(756M) は、リアルタイムアプリケーションに適した実用的な選択肢です。212 tok/sの処理速度を実現し、比較対象モデルの半分のパラメータ数でQwen3-ASRの4.6倍のスループットを達成します。

  • 精度重視:Qwen3-ASR EN-JA(1.7B) は、翻訳品質を優先する場合のより良い選択肢です。独自の評価でEN→JA: 4.2/5、JA→EN: 4.0/5のスコアを達成しています。

既存のベースラインモデルはどちらも双方向を十分にカバーしていません。Whisper large-v3はEN→JAの翻訳に非対応(英語のみ出力)であり、当社の両モデルは単一モデルでバランスの取れた双方向翻訳を提供します。

品質スコアは各モデル独自の評価(LLMジャッジとしてClaude Opus 4.6を使用)に基づいており、2つのリポジトリはFLEURSの異なるサンプルと異なるスコアリングを使用しているため、テーブル間のベースラインスコアは直接比較できません。デプロイメントの判断には、上記の翻訳例セクションが実際の出力品質のより具体的な比較を提供します。

付録:学習・評価・ハードウェアの詳細

GPU / VRAM

GPU: NVIDIA RTX PRO 6000 Blackwell Max-Q(98 GB)、bfloat16

モデルパラメータ数ピークVRAM速度 (tok/s)
Whisper EN-JA(本研究)756M1.56 GB212.1
SeamlessM4T v2 Large1.50B2.89 GB48.6
OpenAI Whisper large-v31.55B3.13 GB51.0
Qwen3-ASR EN-JA(本研究)1.7B~4 GB*45.8

* Qwen3-ASRのVRAM計測は保留中(CPUでも動作可能)。

Qwen3-ASR EN-JA(1.7B) — 学習設定

パラメータ
ベースモデルQwen3-ASR-1.7B
ファインチューニング手法全パラメータSFT
学習データ約127万の音声-テキスト翻訳ペア(EN↔JA)
オプティマイザAdamW
学習率1e-5
学習率スケジューラCosine with warmup(ウォームアップ3%)
実効バッチサイズ64(バッチ8 × 勾配累積8)
学習エポック数約1.3
最良チェックポイントエポック1.16(評価損失基準)
精度bfloat16
最大音声長30秒

翻訳方向はlanguageパラメータ(ターゲット出力言語)で制御:

  • language="Japanese" → EN音声 → JAテキスト
  • language="English" → JA音声 → ENテキスト

Whisper EN-JA(756M) — 学習設定

パラメータ
ベースアーキテクチャWhisper large-v2(Distilled)
エンコーダ層数32(全層、学習中フリーズ)
デコーダ層数4(32層から削減)
隠れ層サイズ1280
総パラメータ数約756M
オプティマイザAdamW
学習率2e-4
学習率スケジューラCosine with restarts
バッチサイズ72
学習エポック数20
ラベルスムージング0.1
エンコーダフリーズ(事前学習済み表現を保持)
勾配チェックポイント有効
最大音声長30秒

翻訳方向はforced_decoder_ids(ソース音声言語)で制御:

  • language="en" + task="translate" → EN音声 → JAテキスト
  • language="ja" + task="translate" → JA音声 → ENテキスト

評価方法

パラメータ
データセットFLEURSテストセット(両翻訳方向)
品質評価1〜5段階(正確性+流暢性)、LLMジャッジ(Claude Opus 4.6)
速度NVIDIA GPU上でbfloat16を用いたトークン/秒
評価の実施リポジトリごとに独立 — FLEURSサブセットが異なり、リポジトリ間のスコアは直接比較不可

テキスト正規化:

  • 英語: BasicTextNormalizer(小文字化、句読点除去)
  • 日本語: 形態素解析と漢字表示形の正規化

推論速度まとめ

モデルパラメータ数速度 (tok/s)相対速度
Qwen3-ASR EN-JA(本研究)1.7B45.81.0x
Meta SeamlessM4T v2 Large1.50B48.61.1x
OpenAI Whisper large-v31.55B51.01.1x
Whisper EN-JA(本研究)756M212.14.6x

Qwen3-ASRの推論はCPU上で実行(GPUにも対応)。Whisper EN-JAの推論はCPUまたはGPU上で実行。

参考文献

当社のモデル:

ベースモデル:

評価データセット:

  • FLEURS — Few-shot Learning Evaluation of Universal Representations of Speech
この記事をシェア

VoicePingを無料で試す

AI翻訳で言語の壁を超えましょう。今すぐ無料でお試しください。

無料ではじめる