
영일 양방향 음성 번역 모델 벤치마크. Qwen3-ASR(1.7B, 최고 품질)과 Distilled Whisper(756M, 4배 빠름)를 OpenAI Whisper large-v3 및 Meta SeamlessM4T v2와 비교 평가합니다.
모델 (Hugging Face):
- voiceping-ai/qwen3-asr-ja-en-speech-translation — EN↔JA 양방향 음성 번역을 위해 파인튜닝한 Qwen3-ASR (1.7B 파라미터, 평가에서 최고 품질)
- voiceping-ai/whisper-ja-en-speech-translation — EN↔JA 양방향 음성 번역용 Distilled Whisper (756M 파라미터, 4배 빠름)
추론 코드 (GitHub):
- qwen3-asr-ja-en-speech-translation — 추론 스크립트, 평가 파이프라인, 모델 사용 예제
- whisper-ja-en-speech-translation — 추론 스크립트, 평가 파이프라인, 모델 사용 예제
학습 스크립트는 이 저장소에 포함되어 있지 않습니다.
개요
본 연구에서는 영일 양방향 음성 번역 모델 2종을 소개합니다. (1) Qwen3-ASR EN-JA (1.7B 파라미터)는 Qwen3-ASR-1.7B를 기반으로, 약 127만 개의 번역 쌍을 활용한 전체 파라미터 SFT로 파인튜닝하여 EN→JA 4.2/5, JA→EN 4.0/5 점수를 달성했습니다. (2) Whisper EN-JA (756M 파라미터)는 Whisper large-v2를 증류한 모델로 4층 디코더를 사용하며, 212 tok/s를 달성하여 Qwen3-ASR보다 4.6배 빠릅니다. 두 모델 모두 FLEURS 테스트셋에서 OpenAI Whisper large-v3 및 Meta SeamlessM4T v2 Large와 비교 평가되었습니다. 품질 점수는 LLM 심사(Claude Opus 4.6)를 통해 산출했습니다. 각 저장소의 평가는 독립적으로 수행되었으므로, 테이블 간 점수를 직접 비교할 수 없습니다.
개발 동기
EN↔JA 음성 번역에서 개발자는 두 가지 트레이드오프를 고려해야 합니다. 비즈니스 커뮤니케이션이나 안전이 중요한 환경에서는 고품질 번역이 필수적이고, 엣지 디바이스에서의 실시간 대화형 사용에는 고속 번역이 요구됩니다. 기존 모델은 EN↔JA 양방향을 지원하지 않거나(Whisper large-v3는 일본어 출력 불가), 온디바이스 배포에는 너무 느린 경우가 많습니다.
본 연구는 이 특정 언어 쌍에 대한 속도-품질 트레이드오프를 정량화합니다. 품질 최적화 아키텍처(Qwen3-ASR, 1.7B)와 속도 최적화 아키텍처(Distilled Whisper, 756M)를 각각 파인튜닝하고, 기존 베이스라인과 벤치마크 비교를 수행합니다. 이를 통해 배포 환경에 맞는 최적의 선택이 가능해집니다.
평가 방법론
두 모델 모두 FLEURS 테스트 샘플을 사용하여 양방향 번역을 평가했습니다. 품질은 LLM 심사(Claude Opus 4.6)를 통해 1~5점 척도(정확성 + 유창성)로 측정했습니다. 속도는 NVIDIA RTX PRO 6000에서 bfloat16으로 측정했습니다. 각 저장소의 평가는 독립적으로 수행되었으며, 테이블 간 점수는 직접 비교할 수 없습니다. 자세한 방법론은 부록을 참조하세요.
결과
Qwen3-ASR 평가 (4개 모델 비교)
| 모델 | 파라미터 | EN→JA | JA→EN | 속도 (tok/s) |
|---|---|---|---|---|
| OpenAI Whisper large-v3 | 1.55B | N/A | 3.2/5 | 51.0 |
| Meta SeamlessM4T v2 Large | 1.50B | 3.8/5 | 3.0/5 | 48.6 |
| Whisper EN-JA Translation (본 연구) | 756M | 2.6/5 | 2.4/5 | 212.1 |
| Qwen3-ASR EN-JA Translation (본 연구) | 1.7B | 4.2/5 | 4.0/5 | 45.8 |
FLEURS 테스트 샘플 기반 품질 평가 (1~5점: 정확성 + 유창성). NVIDIA GPU에서 bfloat16으로 속도 측정. 모든 점수는 Qwen3-ASR 저장소 평가 기준.
Whisper EN-JA 평가 (3개 모델 비교)
| 모델 | 파라미터 | EN→JA | JA→EN | 속도 (tok/s) |
|---|---|---|---|---|
| OpenAI Whisper large-v3 | 1.55B | N/A | 3.6/5 | 51.0 |
| Meta SeamlessM4T v2 Large | 1.50B | 3.8/5 | 4.4/5 | 48.6 |
| Whisper EN-JA Translation (본 연구) | 756M | 3.4/5 | 3.4/5 | 212.1 |
모든 점수는 Whisper EN-JA 저장소 평가 기준. 평가 샘플과 점수 산출 방법이 다르므로 위 테이블의 베이스라인 점수와 다릅니다.
속도 비교
| 모델 | 파라미터 | 속도 (tok/s) | 상대 속도 |
|---|---|---|---|
| Qwen3-ASR EN-JA (본 연구) | 1.7B | 45.8 | 1.0x |
| Meta SeamlessM4T v2 Large | 1.50B | 48.6 | 1.1x |
| OpenAI Whisper large-v3 | 1.55B | 51.0 | 1.1x |
| Whisper EN-JA (본 연구) | 756M | 212.1 | 4.6x |
Distilled Whisper 모델은 파라미터가 절반(756M vs 1.7B)이면서 Qwen3-ASR 대비 4.6배의 처리량을 달성하여, 지연 시간에 민감한 배포 환경에 적합합니다.
모델 아키텍처
- Qwen3-ASR EN-JA (1.7B) — 품질 최적화. Qwen3-ASR-1.7B에서 약 127만 EN↔JA 번역 쌍으로 전체 파라미터 SFT 수행. 오디오 인코더 + 언어 모델 아키텍처.
- Whisper EN-JA (756M) — 속도 최적화. Whisper large-v2에서 증류: 전체 32층 인코더(동결) + 4층 디코더(32층에서 축소)로 파라미터 절반, 추론 속도 4.6배 향상.
전체 학습 하이퍼파라미터, VRAM 사용량, 추론 세부사항은 아래 부록을 참조하세요.
번역 예시
FLEURS 테스트셋 샘플 비교:
EN → JA
| 원본 (EN 오디오) | SeamlessM4T v2 | Whisper EN-JA (본 연구) | Qwen3-ASR EN-JA (본 연구) |
|---|---|---|---|
| through the night between 150 and 200 copies were made now known as dunlap broadsides | 今ではダンラップ・ブロードサイズとして知られる 150 枚から 200 枚のコピーが作られました | 百五十から二百までのコピーが生成されました。 | 150から200本のコピーが作られました。これらは今では「Dunlap Broadside」として知られています。 |
| the find also grants insight into the evolution of feathers in birds | この発見は羽の進化と鳥の進化についても洞察を深めます | この発見は、鳥の羽の形にも影響を与えます。 | この発見は、羽や鳥の進化についても洞察を与えてくれます。 |
| many people don’t think about them as dinosaurs because they have feathers and can fly | 羽があって飛べるから 恐とは思わない人も多い | 多くの人々は、恐竜とは思わない。なぜなら、恐竜には羽があり、飛ぶことができるからです。 | (Qwen3 평가 세트에 미포함) |
JA → EN
| 원본 (JA 오디오) | Whisper large-v3 | Whisper EN-JA (본 연구) | Qwen3-ASR EN-JA (본 연구) |
|---|---|---|---|
| 残念ながら 運転手の行動を100%の確率で予測することはできないので 交通の流れを研究することは困難です | Unfortunately, it is difficult to predict the behavior of the driver with 100% probability, so it is difficult to study the flow of traffic. | Unfortunately, it’s impossible to predict the behavior of drivers with 100% certainty. Therefore, it’s difficult to study the flow of traffic. | Unfortunately, it’s not possible to predict the actions of drivers with 100% certainty. Therefore, it’s difficult to study the flow of traffic. |
| 夜空の下でピラミッドに映像が浮かび ピラミッドが次々とライトアップされます | The image of the pyramid is reflected under the night sky, and the pyramid is lighted up one after another. | The pyramid is lit up one after another. | Under the night sky, images of pyramids are illuminated. The pyramids are lit up one after another. |
| キルヒネル夫人は アルゼンチン劇場で大統領選に出馬するという意向を表明しました | Mrs. Kirchner expressed her intention to appear in the presidential election at the Argentine theater. | Kylhine announced her intention to run for president in the Argentina theater. | Mrs. Kirchner announced her intention to run for president at the Alzen Theatre. |
위 예시에서 Qwen3-ASR은 더 완전하고 문맥에 적합한 번역을 생성하며, 특히 EN→JA에서 고유명사와 문장 구조가 잘 보존됩니다. Whisper EN-JA는 세부 사항을 생략하는 경향이 있지만 유창성은 유지됩니다. 참고: EN→JA 샘플 1건은 Qwen3 평가 세트에 포함되지 않아 비교가 부분적입니다.
한계
- LLM 기반 품질 평가: 점수는 인간 평가자가 아닌 Claude Opus 4.6에 의해 산출되었습니다. LLM 심사에는 인간의 번역 품질 평가와 다른 체계적 편향이 있을 수 있습니다.
- 독립적 평가 실행: 두 저장소는 서로 다른 FLEURS 하위 집합과 다른 점수 산출 방식을 사용하므로, 베이스라인 점수(예: SeamlessM4T)가 테이블 간에 다르며 직접 비교할 수 없습니다.
- 단일 언어 쌍: 결과는 EN↔JA에만 적용되며 다른 언어 쌍으로 일반화되지 않을 수 있습니다.
- GPU 전용 속도: NVIDIA GPU에서 bfloat16으로 측정한 속도입니다. 모바일 CPU/NPU에서의 온디바이스 성능은 크게 달라질 수 있습니다.
향후 연구
- 더 작은 품질 중심 모델: 더 작은 Qwen3-ASR 변형(예: Qwen3-ASR-0.6B) 및 향후 1B 미만 변형(예: 0.8B)을 평가하여 1.7B 대비 품질/속도/메모리 트레이드오프를 정량화.
- 통합 평가 분할: 모든 모델을 하나의 고정 FLEURS 하위 집합과 하나의 점수 산출 파이프라인으로 재평가하여 품질 점수를 직접 비교 가능하게 함.
- 인간 평가 프로토콜: 이중 언어 인간 평가자 추가 및 평가자 간 일치도 보고로 LLM 심사 결과 검증.
- 동시 번역 지연 시간: tok/s뿐 아니라 실시간 사용을 위한 스트리밍/동시 번역 지표를 활용한 번역 지연 측정.
- 온디바이스 배포 벤치마크: Android/iOS NPU 및 CPU에서 동일한 비교를 수행(메모리 및 에너지 사용량 포함).
결론
EN↔JA 음성 번역은 두 가지 서로 다른 트레이드오프 프로파일로 구현할 수 있습니다:
속도 우선: Whisper EN-JA (756M) 는 실시간 애플리케이션에 적합한 실용적 선택입니다. 비교 대상 모델의 절반 파라미터로 212 tok/s를 달성하며, Qwen3-ASR 대비 4.6배 높은 처리량을 제공합니다.
정확도 우선: Qwen3-ASR EN-JA (1.7B) 는 번역 품질이 우선일 때 더 나은 선택입니다. 자체 평가에서 EN→JA 4.2/5, JA→EN 4.0/5 점수를 달성했습니다.
기존 베이스라인 모델은 양방향을 모두 잘 커버하지 못합니다. Whisper large-v3는 EN→JA 번역이 아예 불가능하고(영어 출력만 가능), 본 연구의 두 모델은 단일 모델로 균형 잡힌 양방향 번역을 제공합니다.
품질 점수는 각 모델의 자체 평가(LLM 심사로 Claude Opus 4.6 사용)에 기반하며, 두 저장소는 서로 다른 FLEURS 샘플과 점수 산출 방식을 사용하므로 베이스라인 점수는 테이블 간 직접 비교가 불가합니다. 배포 결정에는 위의 번역 예시 섹션이 실제 출력 품질에 대한 보다 구체적인 비교를 제공합니다.
부록: 학습, 평가 및 하드웨어 세부사항
GPU / VRAM
GPU: NVIDIA RTX PRO 6000 Blackwell Max-Q (98 GB), bfloat16
| 모델 | 파라미터 | 피크 VRAM | 속도 (tok/s) |
|---|---|---|---|
| Whisper EN-JA (본 연구) | 756M | 1.56 GB | 212.1 |
| SeamlessM4T v2 Large | 1.50B | 2.89 GB | 48.6 |
| OpenAI Whisper large-v3 | 1.55B | 3.13 GB | 51.0 |
| Qwen3-ASR EN-JA (본 연구) | 1.7B | ~4 GB* | 45.8 |
* Qwen3-ASR VRAM 측정은 보류 중 (CPU에서도 실행 가능).
Qwen3-ASR EN-JA (1.7B) — 학습 설정
| 파라미터 | 값 |
|---|---|
| 베이스 모델 | Qwen3-ASR-1.7B |
| 파인튜닝 방식 | 전체 파라미터 SFT |
| 학습 데이터 | 약 127만 오디오-텍스트 번역 쌍 (EN↔JA) |
| 옵티마이저 | AdamW |
| 학습률 | 1e-5 |
| 학습률 스케줄러 | Cosine with warmup (워밍업 3%) |
| 유효 배치 크기 | 64 (배치 8 x 그래디언트 누적 8) |
| 학습 에포크 | 약 1.3 |
| 최적 체크포인트 | 에포크 1.16 (평가 손실 기준) |
| 정밀도 | bfloat16 |
| 최대 오디오 길이 | 30초 |
번역 방향은 language 파라미터(대상 출력 언어)로 제어:
language="Japanese"→ EN 오디오 → JA 텍스트language="English"→ JA 오디오 → EN 텍스트
Whisper EN-JA (756M) — 학습 설정
| 파라미터 | 값 |
|---|---|
| 베이스 아키텍처 | Whisper large-v2 (증류) |
| 인코더 레이어 | 32 (전체, 학습 중 동결) |
| 디코더 레이어 | 4 (32에서 축소) |
| 히든 크기 | 1280 |
| 총 파라미터 | 약 756M |
| 옵티마이저 | AdamW |
| 학습률 | 2e-4 |
| 학습률 스케줄러 | Cosine with restarts |
| 배치 크기 | 72 |
| 학습 에포크 | 20 |
| 레이블 스무딩 | 0.1 |
| 인코더 | 동결 (사전 학습된 표현 보존) |
| 그래디언트 체크포인팅 | 활성화 |
| 최대 오디오 길이 | 30초 |
번역 방향은 forced_decoder_ids(원본 오디오 언어)로 제어:
language="en"+task="translate"→ EN 오디오 → JA 텍스트language="ja"+task="translate"→ JA 오디오 → EN 텍스트
평가 방법론
| 파라미터 | 값 |
|---|---|
| 데이터셋 | FLEURS 테스트셋 (양방향 번역) |
| 품질 평가 | 1~5점 척도 (정확성 + 유창성), LLM 심사 (Claude Opus 4.6) |
| 속도 | NVIDIA GPU에서 bfloat16 기준 토큰/초 |
| 평가 실행 | 저장소별 독립 수행 — 서로 다른 FLEURS 하위 집합, 저장소 간 점수 직접 비교 불가 |
텍스트 정규화:
- 영어: BasicTextNormalizer (소문자 변환, 구두점 제거)
- 일본어: 형태소 분석 및 한자 표시형 정규화
추론 속도 요약
| 모델 | 파라미터 | 속도 (tok/s) | 상대 속도 |
|---|---|---|---|
| Qwen3-ASR EN-JA (본 연구) | 1.7B | 45.8 | 1.0x |
| Meta SeamlessM4T v2 Large | 1.50B | 48.6 | 1.1x |
| OpenAI Whisper large-v3 | 1.55B | 51.0 | 1.1x |
| Whisper EN-JA (본 연구) | 756M | 212.1 | 4.6x |
Qwen3-ASR 추론은 CPU에서 실행 (GPU도 지원). Whisper EN-JA 추론은 CPU 또는 GPU에서 실행.
참고 문헌
본 연구 모델:
- Qwen3-ASR EN-JA Translation — 1.7B 파라미터 (Apache 2.0)
- Whisper EN-JA Translation — 756M 파라미터, 4배 빠름 (Apache 2.0)
베이스 모델:
- Qwen3-ASR-1.7B — Qwen3 자동 음성 인식 모델
- OpenAI Whisper large-v3 — 대규모 음성 인식 및 번역 모델
- Meta SeamlessM4T v2 Large — 대규모 다국어 음성 번역 모델
평가 데이터셋:
- FLEURS — Few-shot Learning Evaluation of Universal Representations of Speech


