
Membandingkan lima model TTS emosional untuk bahasa Jepang dan Tionghoa dengan enam emosi, SenseVoice, emotion2vec anchors, CER, naturalness, runtime, dan contoh audio.
Model dan referensi:
Abstrak
Kami membenchmark lima sistem TTS emosional untuk bahasa Jepang dan Tionghoa dengan enam emosi target: neutral, happy, sad, angry, fear, dan disgust. Prompt dibuat netral agar emosi harus muncul dari gaya bicara.
Kandidat paling seimbang adalah Qwen3-TTS CustomVoice 1.7B. Model ini memiliki CER rendah, anchor hit rate terbaik, naturalness kuat, dan trade-off paling praktis untuk Jepang/Tionghoa.
CosyVoice 300M Instruct memimpin naturalness, tetapi kontrol emosinya lemah. IndexTTS-2 terlihat kuat pada pooled SenseVoice score, tetapi CER bahasa Jepang terlalu tinggi untuk dianggap andal. Bahasa Tionghoa lebih mudah daripada Jepang, sementara fear dan disgust masih belum terselesaikan.
Motivasi
TTS emosional bukan hanya soal suara yang terdengar natural. Model harus mengucapkan kalimat yang benar, tetap enak didengar, dan mengekspresikan emosi yang diminta. Karena itu evaluasi ini menggabungkan recognition emosi, anchor emosi, CER, naturalness, runtime, dan contoh audio.
- Kalimat bahasa Jepang atau Tionghoa yang dimaksud harus tetap benar.
- Suara harus terdengar cukup natural untuk didengarkan secara nyata.
- Suara yang dihasilkan harus mengekspresikan emosi yang diminta, bukan jatuh ke suara netral atau emosi yang mirip.
Metodologi evaluasi
Benchmark memakai grid generasi yang seimbang menurut bahasa, emosi, dan prompt. Kalimat yang sama dipakai untuk enam emosi sehingga model harus mengandalkan prosodi dan gaya suara, bukan kata-kata emosional.
Set prompt
Contoh prompt bahasa Jepang:
| ID | Kalimat |
|---|---|
ja_001 | 会議は午前十時に始まります。 |
ja_002 | 資料は机の上に置いてあります。 |
ja_003 | 明日の予定を確認してください。 |
ja_004 | 電車は三番線から出発します。 |
ja_005 | 受付で名前を伝えてください。 |
Contoh prompt bahasa Tionghoa:
| ID | Kalimat |
|---|---|
zh_001 | 会议将在上午十点开始。 |
zh_002 | 资料已经放在桌子上。 |
zh_003 | 请确认明天的日程安排。 |
zh_004 | 列车将从三号站台出发。 |
zh_005 | 请在前台告知您的姓名。 |
Kontrol emosi
| Target emotion | Control text |
|---|---|
neutral | Speak in a clear, neutral, natural voice. |
happy | Speak in a happy, warm, bright voice. |
sad | Speak in a sad, soft, slow, gentle voice. |
angry | Speak in an angry, tense, forceful voice. |
fear | Speak in a fearful, tense, trembling voice. |
disgust | Speak in a disgusted, displeased, rejecting voice. |
Metrik
- Akurasi emosi SenseVoice: metrik utama untuk penyaringan otomatis.
- Anchor hit dan margin emotion2vec: metrik diagnostik tambahan berbasis centroid anchor ucapan emosional.
- CER: tingkat kesalahan karakter dari transkripsi dibandingkan prompt asli.
- NISQA-TTS dan UTMOS: metrik diagnostik untuk naturalness dan kualitas suara sintetis.
- RTF: real-time factor untuk mengukur kecepatan sintesis.
Hasil
Penggunaan sumber daya
Metrik sumber daya berasal dari 600 baris generasi yang berhasil. GPU, VRAM, wall time, dan RTF terisi untuk semua baris selesai; CPU tidak selalu tertangkap untuk adapter berbasis server.
| Model | Median wall time | Median RTF | Median peak VRAM | GPU util | GPU power | CPU | Median peak RSS |
|---|---|---|---|---|---|---|---|
cosyvoice_300m_instruct | 2.26s | 0.85 | 3.96 GB | 30.3% avg / 39.0% peak | 145.0W avg / 155.6W peak | 127.8% peak; 100% coverage | 5.54 GB |
qwen3_tts_customvoice_1_7b | 4.20s | 1.58 | 8.13 GB | 22.9% avg / 25.0% peak | 126.3W avg / 127.1W peak | 138.1% peak; 100% coverage | 6.22 GB |
fish_audio_s1_mini | 7.06s | 3.47 | 13.05 GB | 25.3% avg / 69.0% peak | 150.4W avg / 183.7W peak | not captured; 0% coverage | 0.80 GB |
indextts-2 | 26.39s | 6.97 | 7.29 GB | 18.2% avg / 100.0% peak | 131.3W avg / 199.6W peak | not captured; 0% coverage | 7.69 GB |
voxcpm2 | 28.44s | 9.84 | 12.79 GB | 12.3% avg / 100.0% peak | 106.7W avg / 191.5W peak | not captured; 0% coverage | 10.65 GB |
CosyVoice paling cepat dan memakai VRAM paling rendah, tetapi bukan kandidat kontrol emosi terkuat. Qwen3-TTS memakai VRAM lebih besar daripada CosyVoice, namun jauh lebih cepat daripada IndexTTS-2 dan VoxCPM2 serta memiliki keseimbangan terbaik antara emosi dan fidelitas teks.
Ikhtisar metrik JA/ZH
Tabel split ini membandingkan Jepang dan Tionghoa untuk tiga pemeriksaan inti: akurasi emosi SenseVoice, CER, dan alignment anchor emotion2vec.
| Model | JA SenseVoice | ZH SenseVoice | JA CER | ZH CER | JA anchor hit | ZH anchor hit | JA anchor margin | ZH anchor margin |
|---|---|---|---|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | 15.0% | 53.3% | 8.6% | 9.7% | 40.0% | 64.0% | -0.06645 | 0.04480 |
indextts-2 | 43.3% | 16.7% | 91.0% | 10.3% | 38.0% | 30.0% | -0.08293 | -0.04063 |
voxcpm2 | 6.7% | 35.0% | 18.6% | 4.4% | 40.0% | 36.0% | -0.04479 | -0.02693 |
cosyvoice_300m_instruct | 1.7% | 36.7% | 43.9% | 11.1% | 24.0% | 72.0% | -0.05481 | 0.03796 |
fish_audio_s1_mini | 6.7% | 16.7% | 12.7% | 16.8% | 20.0% | 24.0% | -0.08972 | -0.09542 |
Bahasa Tionghoa umumnya lebih mudah untuk metrik emosi otomatis, tetapi CER dan akurasi emosi tidak selalu bergerak bersama. Qwen3-TTS menjaga CER rendah di dua bahasa; IndexTTS-2 memiliki skor SenseVoice Jepang tertinggi tetapi CER Jepang terburuk.
Fidelitas teks (CER)
Untuk fidelitas teks, Qwen3-TTS paling stabil: CER Jepang 8.6% dan CER Tionghoa 9.7%. IndexTTS-2 menjadi kasus peringatan karena CER Jepang mencapai 91.0%.
Akurasi emosi
SenseVoice
Dalam setup otomatis ini, bahasa Tionghoa jelas lebih mudah daripada Jepang. Pada Qwen3-TTS, akurasi SenseVoice Tionghoa 53.3% sementara Jepang 15.0%, meski CER rendah di kedua bahasa. Artinya masalahnya bukan hanya intelligibility, tetapi juga sinyal emosi Jepang yang lebih lemah atau kurang selaras dengan SenseVoice.
fear dan disgust adalah label tersulit. SenseVoice recall untuk keduanya 0.0% di semua pasangan model/bahasa, sering jatuh ke sad, neutral, angry, atau unknown.
Baris adalah emosi target dan kolom adalah prediksi SenseVoice. Kotak hijau menunjukkan diagonal ideal.
| Kasus | Yang terjadi | Mengapa penting |
|---|---|---|
indextts-2 / ja | happy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10. | Label emosi bisa terlihat masuk akal walau kualitas teks Jepang tidak andal. |
qwen3_tts_customvoice_1_7b / zh | happy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10. | Qwen adalah pemenang paling seimbang, tetapi emosi sulit masih collapse. |
cosyvoice_300m_instruct / ja | happy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10. | Naturalness tidak menjamin kontrol emosi yang dapat dikenali. |
fish_audio_s1_mini / zh | happy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10. | Marker emosi inline tidak menggeser prosodi secara andal. |
voxcpm2 / zh | happy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10. | Kontrol berbasis prompt sering jatuh ke ucapan netral. |
emotion2vec anchors
Metrik anchor memberi cerita serupa dengan SenseVoice: anchor Tionghoa lebih menguntungkan daripada Jepang. Margin positif berarti audio lebih dekat ke centroid emosi target. Qwen3-TTS memiliki margin Tionghoa positif, sementara semua margin Jepang negatif.
Naturalness
| Model | Mean NISQA-TTS | Low NISQA-TTS <3.0 | Mean UTMOS | Low UTMOS <3.0 |
|---|---|---|---|---|
cosyvoice_300m_instruct | 4.267 | 0.0% | 3.282 | 20.8% |
indextts-2 | 4.063 | 11.7% | 2.078 | 93.3% |
qwen3_tts_customvoice_1_7b | 4.007 | 0.8% | 2.939 | 51.7% |
fish_audio_s1_mini | 3.935 | 3.3% | 2.932 | 55.8% |
voxcpm2 | 3.788 | 8.3% | 2.596 | 76.7% |
Naturalness dan kebenaran emosi adalah pertanyaan berbeda. CosyVoice menang naturalness, tetapi bukan pemenang kontrol emosi. Qwen3-TTS sedikit lebih rendah di NISQA-TTS, namun trade-off emosi, teks, dan kecepatan lebih baik.
Contoh audio
Tabel di bawah memakai prompt index yang sama untuk sampel happy dan angry dalam Jepang dan Tionghoa. Klip ini bukan human listening test, melainkan anchor kualitatif untuk membaca metrik otomatis.
| Model | Language | Target | SenseVoice prediction | Sample |
|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | JA | happy | unknown | |
qwen3_tts_customvoice_1_7b | JA | angry | angry | |
qwen3_tts_customvoice_1_7b | ZH | happy | neutral | |
qwen3_tts_customvoice_1_7b | ZH | angry | angry | |
cosyvoice_300m_instruct | JA | happy | unknown | |
cosyvoice_300m_instruct | JA | angry | unknown | |
cosyvoice_300m_instruct | ZH | happy | happy | |
cosyvoice_300m_instruct | ZH | angry | neutral | |
indextts-2 | JA | happy | sad | |
indextts-2 | JA | angry | surprised | |
indextts-2 | ZH | happy | neutral | |
indextts-2 | ZH | angry | neutral | |
fish_audio_s1_mini | JA | happy | happy | |
fish_audio_s1_mini | JA | angry | happy | |
fish_audio_s1_mini | ZH | happy | neutral | |
fish_audio_s1_mini | ZH | angry | neutral | |
voxcpm2 | JA | happy | unknown | |
voxcpm2 | JA | angry | angry | |
voxcpm2 | ZH | happy | happy | |
voxcpm2 | ZH | angry | angry |
Batasan
- Label emosi otomatis bukan penilaian manusia. SenseVoice berguna karena mendukung Jepang dan Tionghoa, tetapi tetap bisa memiliki bias classifier dan ketimpangan bahasa.
- Metrik anchor bergantung pada dataset anchor. Anchor Jepang berasal dari JVNV dan Tionghoa dari CSEMOTIONS; run ini tidak memiliki
ja/neutraldanzh/disgust. - IndexTTS-2 Jepang bersifat diagnostik. Pooled score terlihat kuat, tetapi CER Jepang terlalu tinggi dalam setup ini.
Riset lanjutan
- Jalankan MOS/CMOS kecil dengan penutur asli untuk Qwen3-TTS dan CosyVoice.
- Perlakukan IndexTTS-2 sebagai kandidat Tionghoa untuk sementara, atau rerun setelah memperbaiki Japanese tokenizer/text path.
- Tambahkan atau kurasi anchor
ja/neutraldanzh/disgustyang hilang. - Lakukan human check Tionghoa untuk
sad,angry,fear, dandisgust. - Gunakan SenseVoice sebagai screening otomatis, tetapi keputusan produksi tetap melalui human listening tests.
Kesimpulan
Untuk TTS emosional Jepang dan Tionghoa, Qwen3-TTS CustomVoice 1.7B adalah model paling seimbang dalam benchmark ini. Model ini belum menyelesaikan semua emosi, tetapi memberi kombinasi paling praktis antara emotion recognition, CER rendah, anchor hit rate, naturalness, dan runtime.