Speech Translation On-Device AI Benchmark Qwen3 ASR Whisper SeamlessM4T Japanese English Edge AI

语音翻译:英日双向翻译中 Qwen3-ASR 与 Whisper 的对比

Akinori Nakajima - VoicePing 5 分钟阅读
语音翻译:英日双向翻译中 Qwen3-ASR 与 Whisper 的对比

英日双向语音翻译模型基准测试。将 Qwen3-ASR(1.7B 参数,最高质量)和 Distilled Whisper(756M,快 4 倍)与 OpenAI Whisper large-v3 及 Meta SeamlessM4T v2 进行比较。

模型(Hugging Face):

推理代码(GitHub):

训练脚本未包含在这些仓库中。

摘要

本研究提出两个英日双向语音翻译模型:(1) Qwen3-ASR EN-JA(1.7B 参数),基于 Qwen3-ASR-1.7B 使用约 127 万个翻译对进行全参数 SFT 微调,EN→JA 评分 4.2/5,JA→EN 评分 4.0/5;(2) Whisper EN-JA(756M 参数),从 Whisper large-v2 蒸馏而来,采用 4 层解码器,推理速度达 212 tok/s,是 Qwen3-ASR 的 4.6 倍。两个模型均在 FLEURS 测试集上与 OpenAI Whisper large-v3 和 Meta SeamlessM4T v2 Large 进行了对比评估。质量由 LLM 评审(Claude Opus 4.6)评分。各仓库独立进行评估,表格间的分数不可直接比较。

研究动机

在 EN↔JA 语音翻译领域,开发者面临两种权衡:在商务沟通和安全关键场景中需要高质量翻译,而边缘设备上的实时交互使用则要求高速翻译。现有模型要么不支持 EN↔JA 双向翻译(Whisper large-v3 无法输出日语),要么速度太慢无法进行端侧部署。

本研究通过微调两种架构——注重质量的 Qwen3-ASR(1.7B)和注重速度的 Distilled Whisper(756M)——来量化这一特定语言对的速度-质量权衡,并与已有基准模型进行对标。研究结果可帮助开发者根据部署约束做出合理选择。

评估方法

两个模型均使用 FLEURS 测试样本在两个翻译方向上进行评估。质量采用 LLM 评审(Claude Opus 4.6)的 1~5 分评分(准确性 + 流畅度)。速度在 NVIDIA RTX PRO 6000 上以 bfloat16 精度测量。各仓库独立进行评估,表格间的分数不可直接比较。详细方法请参见附录。

结果

Qwen3-ASR 评估(4 模型对比)

Qwen3-ASR 质量与速度对比

模型参数量EN→JAJA→EN速度 (tok/s)
OpenAI Whisper large-v31.55BN/A3.2/551.0
Meta SeamlessM4T v2 Large1.50B3.8/53.0/548.6
Whisper EN-JA Translation(本研究)756M2.6/52.4/5212.1
Qwen3-ASR EN-JA Translation(本研究)1.7B4.2/54.0/545.8

基于 FLEURS 测试样本的质量评分(1~5 分:准确性 + 流畅度)。速度在 NVIDIA GPU 上以 bfloat16 测量。所有分数来自 Qwen3-ASR 仓库评估。

Whisper EN-JA 评估(3 模型对比)

Whisper EN-JA 质量与速度对比

模型参数量EN→JAJA→EN速度 (tok/s)
OpenAI Whisper large-v31.55BN/A3.6/551.0
Meta SeamlessM4T v2 Large1.50B3.8/54.4/548.6
Whisper EN-JA Translation(本研究)756M3.4/53.4/5212.1

所有分数来自 Whisper EN-JA 仓库评估。由于评估样本和评分方法不同,基准分数与上表有所差异。

速度对比

模型参数量速度 (tok/s)相对速度
Qwen3-ASR EN-JA(本研究)1.7B45.81.0x
Meta SeamlessM4T v2 Large1.50B48.61.1x
OpenAI Whisper large-v31.55B51.01.1x
Whisper EN-JA(本研究)756M212.14.6x

Distilled Whisper 模型以一半的参数量(756M vs 1.7B)实现了 Qwen3-ASR 4.6 倍的吞吐量,适合对延迟敏感的部署场景。

模型架构

  • Qwen3-ASR EN-JA(1.7B) — 质量优化。基于 Qwen3-ASR-1.7B,使用约 127 万 EN↔JA 翻译对进行全参数 SFT。音频编码器 + 语言模型架构。
  • Whisper EN-JA(756M) — 速度优化。从 Whisper large-v2 蒸馏:完整 32 层编码器(冻结)+ 4 层解码器(从 32 层缩减),参数减半的同时推理速度提升 4.6 倍。

完整的训练超参数、VRAM 使用量和推理详情请参见下方附录。

翻译示例

基于 FLEURS 测试集样本的并列对比:

EN → JA

源文本(EN 音频)SeamlessM4T v2Whisper EN-JA(本研究)Qwen3-ASR EN-JA(本研究)
through the night between 150 and 200 copies were made now known as dunlap broadsides今ではダンラップ・ブロードサイズとして知られる 150 枚から 200 枚のコピーが作られました百五十から二百までのコピーが生成されました。150から200本のコピーが作られました。これらは今では「Dunlap Broadside」として知られています。
the find also grants insight into the evolution of feathers in birdsこの発見は羽の進化と鳥の進化についても洞察を深めますこの発見は、鳥の羽の形にも影響を与えます。この発見は、羽や鳥の進化についても洞察を与えてくれます。
many people don’t think about them as dinosaurs because they have feathers and can fly羽があって飛べるから 恐とは思わない人も多い多くの人々は、恐竜とは思わない。なぜなら、恐竜には羽があり、飛ぶことができるからです。(不在 Qwen3 评估集中)

JA → EN

源文本(JA 音频)Whisper large-v3Whisper EN-JA(本研究)Qwen3-ASR EN-JA(本研究)
残念ながら 運転手の行動を100%の確率で予測することはできないので 交通の流れを研究することは困難ですUnfortunately, it is difficult to predict the behavior of the driver with 100% probability, so it is difficult to study the flow of traffic.Unfortunately, it’s impossible to predict the behavior of drivers with 100% certainty. Therefore, it’s difficult to study the flow of traffic.Unfortunately, it’s not possible to predict the actions of drivers with 100% certainty. Therefore, it’s difficult to study the flow of traffic.
夜空の下でピラミッドに映像が浮かび ピラミッドが次々とライトアップされますThe image of the pyramid is reflected under the night sky, and the pyramid is lighted up one after another.The pyramid is lit up one after another.Under the night sky, images of pyramids are illuminated. The pyramids are lit up one after another.
キルヒネル夫人は アルゼンチン劇場で大統領選に出馬するという意向を表明しましたMrs. Kirchner expressed her intention to appear in the presidential election at the Argentine theater.Kylhine announced her intention to run for president in the Argentina theater.Mrs. Kirchner announced her intention to run for president at the Alzen Theatre.

从上述示例可以看出,Qwen3-ASR 生成了更完整、更贴合上下文的翻译,尤其在 EN→JA 方向上保留了专有名词和句子结构。Whisper EN-JA 倾向于省略细节,但保持了流畅性。注意:有一个 EN→JA 样本不在 Qwen3 的评估集中,因此比较是不完整的。

局限性

  • LLM 评审质量评分:分数由 Claude Opus 4.6 生成,而非人工评估。LLM 评审可能存在与人类翻译质量评估不同的系统性偏差。
  • 独立评估运行:两个仓库使用不同的 FLEURS 子集和不同的评分流程,因此基准分数(如 SeamlessM4T)在表格间有差异,不可直接跨表比较。
  • 单一语言对:结果仅适用于 EN↔JA,不一定能推广到其他语言对。
  • 仅 GPU 速度:速度在 NVIDIA GPU 上以 bfloat16 测量。移动端 CPU/NPU 的设备端性能会有显著差异。

未来研究

  • 更小的质量导向模型:评估更小的 Qwen3-ASR 变体(如 Qwen3-ASR-0.6B)和未来的亚 1B 变体(如潜在的 0.8B 版本),量化其与 1.7B 之间的质量/速度/内存权衡。
  • 统一评估分割:在一个固定的 FLEURS 子集和统一的评分流水线上重新运行所有模型,使质量分数可直接比较。
  • 人工评估协议:添加双语人工评估者并报告评估者间一致性,以验证 LLM 评审结果。
  • 同声传译延迟:不仅测量 tok/s,还使用流式/同声传译指标测量实时使用中的翻译延迟。
  • 端侧部署基准测试:在 Android/iOS NPU 和 CPU 上进行相同的对比测试,包括内存和能耗指标。

结论

EN↔JA 语音翻译可以通过两种不同的权衡方案来实现:

  • 速度优先:Whisper EN-JA(756M) 是实时应用的实用选择——以同类模型一半的参数量达到 212 tok/s,吞吐量是 Qwen3-ASR 的 4.6 倍。

  • 质量优先:Qwen3-ASR EN-JA(1.7B) 是翻译质量优先时的更好选择——在自身评估中 EN→JA 得分 4.2/5,JA→EN 得分 4.0/5。

现有的基准模型都无法很好地覆盖双向翻译:Whisper large-v3 完全无法进行 EN→JA 翻译(仅输出英语),而我们的两个模型都能通过单一模型提供均衡的双向翻译。

质量分数来自各模型自身的评估(使用 Claude Opus 4.6 作为 LLM 评审),两个仓库使用不同的 FLEURS 样本和评分流程,因此基准分数不可跨表直接比较。在做部署决策时,上方的翻译示例部分提供了更具体的实际输出质量对比。

附录:训练、评估和硬件详情

GPU / VRAM

GPU:NVIDIA RTX PRO 6000 Blackwell Max-Q(98 GB),bfloat16

模型参数量峰值 VRAM速度 (tok/s)
Whisper EN-JA(本研究)756M1.56 GB212.1
SeamlessM4T v2 Large1.50B2.89 GB48.6
OpenAI Whisper large-v31.55B3.13 GB51.0
Qwen3-ASR EN-JA(本研究)1.7B~4 GB*45.8

* Qwen3-ASR 的 VRAM 测量待定(也可在 CPU 上运行)。

Qwen3-ASR EN-JA(1.7B)— 训练配置

参数
基础模型Qwen3-ASR-1.7B
微调方法全参数 SFT
训练数据约 127 万音频-文本翻译对(EN↔JA)
优化器AdamW
学习率1e-5
学习率调度器Cosine with warmup(3% 预热)
有效批量大小64(批量 8 x 梯度累积 8)
训练轮次约 1.3
最佳检查点第 1.16 轮(按评估损失)
精度bfloat16
最大音频长度30 秒

翻译方向通过 language 参数(目标输出语言)控制:

  • language="Japanese" → EN 音频 → JA 文本
  • language="English" → JA 音频 → EN 文本

Whisper EN-JA(756M)— 训练配置

参数
基础架构Whisper large-v2(蒸馏)
编码器层数32(完整,训练时冻结)
解码器层数4(从 32 层缩减)
隐藏层大小1280
总参数量约 756M
优化器AdamW
学习率2e-4
学习率调度器Cosine with restarts
批量大小72
训练轮次20
标签平滑0.1
编码器冻结(保留预训练表示)
梯度检查点启用
最大音频长度30 秒

翻译方向通过 forced_decoder_ids(源音频语言)控制:

  • language="en" + task="translate" → EN 音频 → JA 文本
  • language="ja" + task="translate" → JA 音频 → EN 文本

评估方法

参数
数据集FLEURS 测试集(两个翻译方向)
质量评分1~5 分(准确性 + 流畅度),LLM 评审(Claude Opus 4.6)
速度NVIDIA GPU 上 bfloat16 精度下的 token/秒
评估运行各仓库独立进行 — 不同的 FLEURS 子集,跨仓库分数不可直接比较

文本规范化:

  • 英语:BasicTextNormalizer(小写化、去除标点)
  • 日语:形态素分词与汉字显示形规范化

推理速度总结

模型参数量速度 (tok/s)相对速度
Qwen3-ASR EN-JA(本研究)1.7B45.81.0x
Meta SeamlessM4T v2 Large1.50B48.61.1x
OpenAI Whisper large-v31.55B51.01.1x
Whisper EN-JA(本研究)756M212.14.6x

Qwen3-ASR 推理在 CPU 上运行(也支持 GPU)。Whisper EN-JA 推理在 CPU 或 GPU 上运行。

参考文献

本研究模型:

基础模型:

评估数据集:

  • FLEURS — Few-shot Learning Evaluation of Universal Representations of Speech
分享这篇文章

免费试用 VoicePing

借助 AI 翻译跨越语言障碍。立即开始使用免费计划。

免费开始