
Perbandingan lima model TTS emosi untuk bahasa Jepun dan Cina merentas enam emosi, SenseVoice, emotion2vec anchors, CER, naturalness, runtime dan contoh audio.
Model dan rujukan:
Abstrak
Kami menanda aras lima sistem TTS emosi untuk bahasa Jepun dan Cina merentas enam emosi sasaran: neutral, happy, sad, angry, fear dan disgust. Teks prompt dikekalkan neutral supaya emosi perlu datang daripada gaya pertuturan.
Calon paling seimbang ialah Qwen3-TTS CustomVoice 1.7B. Ia menunjukkan CER rendah, anchor hit rate terbaik, naturalness kukuh dan keseimbangan emosi/teks yang paling praktikal untuk Jepun dan Cina.
CosyVoice 300M Instruct mendahului naturalness tetapi kawalan emosinya lemah. IndexTTS-2 kelihatan baik pada pooled SenseVoice score, namun CER Jepun terlalu tinggi. Bahasa Cina lebih mudah daripada Jepun, manakala fear dan disgust masih belum selesai.
Motivasi
TTS emosi bukan sekadar menjadikan suara kedengaran natural. Model perlu menyebut ayat yang betul, mudah didengar dan menyampaikan emosi yang diminta. Oleh itu benchmark ini menggabungkan pengecaman emosi, emotion anchors, CER, naturalness, runtime dan contoh audio.
- Ayat Jepun atau Cina yang dimaksudkan perlu kekal tepat.
- Suara perlu kedengaran cukup natural untuk pendengaran sebenar.
- Suara yang dijana perlu menyampaikan emosi yang diminta, bukan jatuh kepada pertuturan neutral atau emosi yang hampir sama.
Metodologi penilaian
Benchmark menggunakan grid generasi seimbang mengikut bahasa, emosi dan teks prompt. Ayat yang sama digunakan untuk enam emosi supaya model perlu bergantung pada prosody dan gaya suara.
Set prompt
Contoh prompt bahasa Jepun:
| ID | Ayat |
|---|---|
ja_001 | 会議は午前十時に始まります。 |
ja_002 | 資料は机の上に置いてあります。 |
ja_003 | 明日の予定を確認してください。 |
ja_004 | 電車は三番線から出発します。 |
ja_005 | 受付で名前を伝えてください。 |
Contoh prompt bahasa Cina:
| ID | Ayat |
|---|---|
zh_001 | 会议将在上午十点开始。 |
zh_002 | 资料已经放在桌子上。 |
zh_003 | 请确认明天的日程安排。 |
zh_004 | 列车将从三号站台出发。 |
zh_005 | 请在前台告知您的姓名。 |
Kawalan emosi
| Target emotion | Control text |
|---|---|
neutral | Speak in a clear, neutral, natural voice. |
happy | Speak in a happy, warm, bright voice. |
sad | Speak in a sad, soft, slow, gentle voice. |
angry | Speak in an angry, tense, forceful voice. |
fear | Speak in a fearful, tense, trembling voice. |
disgust | Speak in a disgusted, displeased, rejecting voice. |
Metrik
- Ketepatan emosi SenseVoice: metrik utama untuk saringan automatik.
- Anchor hit dan margin emotion2vec: metrik diagnostik tambahan berdasarkan centroid anchor pertuturan emosi.
- CER: kadar ralat aksara apabila transkripsi dibandingkan dengan prompt asal.
- NISQA-TTS dan UTMOS: metrik diagnostik untuk naturalness dan kualiti suara sintetik.
- RTF: real-time factor untuk mengukur kelajuan sintesis.
Keputusan
Penggunaan sumber
Metrik sumber datang daripada 600 generasi berjaya. GPU, VRAM, wall time dan RTF diisi untuk semua baris selesai; CPU tidak sentiasa tertangkap untuk adapter berasaskan server.
| Model | Median wall time | Median RTF | Median peak VRAM | GPU util | GPU power | CPU | Median peak RSS |
|---|---|---|---|---|---|---|---|
cosyvoice_300m_instruct | 2.26s | 0.85 | 3.96 GB | 30.3% avg / 39.0% peak | 145.0W avg / 155.6W peak | 127.8% peak; 100% coverage | 5.54 GB |
qwen3_tts_customvoice_1_7b | 4.20s | 1.58 | 8.13 GB | 22.9% avg / 25.0% peak | 126.3W avg / 127.1W peak | 138.1% peak; 100% coverage | 6.22 GB |
fish_audio_s1_mini | 7.06s | 3.47 | 13.05 GB | 25.3% avg / 69.0% peak | 150.4W avg / 183.7W peak | not captured; 0% coverage | 0.80 GB |
indextts-2 | 26.39s | 6.97 | 7.29 GB | 18.2% avg / 100.0% peak | 131.3W avg / 199.6W peak | not captured; 0% coverage | 7.69 GB |
voxcpm2 | 28.44s | 9.84 | 12.79 GB | 12.3% avg / 100.0% peak | 106.7W avg / 191.5W peak | not captured; 0% coverage | 10.65 GB |
CosyVoice paling pantas dan menggunakan VRAM paling rendah, tetapi bukan calon kawalan emosi terkuat. Qwen3-TTS menggunakan lebih VRAM daripada CosyVoice, namun jauh lebih pantas daripada IndexTTS-2 dan VoxCPM2 serta lebih seimbang.
Gambaran metrik JA/ZH
Jadual ini memisahkan Jepun dan Cina untuk tiga semakan utama: SenseVoice emotion accuracy, CER dan emotion2vec anchor alignment.
| Model | JA SenseVoice | ZH SenseVoice | JA CER | ZH CER | JA anchor hit | ZH anchor hit | JA anchor margin | ZH anchor margin |
|---|---|---|---|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | 15.0% | 53.3% | 8.6% | 9.7% | 40.0% | 64.0% | -0.06645 | 0.04480 |
indextts-2 | 43.3% | 16.7% | 91.0% | 10.3% | 38.0% | 30.0% | -0.08293 | -0.04063 |
voxcpm2 | 6.7% | 35.0% | 18.6% | 4.4% | 40.0% | 36.0% | -0.04479 | -0.02693 |
cosyvoice_300m_instruct | 1.7% | 36.7% | 43.9% | 11.1% | 24.0% | 72.0% | -0.05481 | 0.03796 |
fish_audio_s1_mini | 6.7% | 16.7% | 12.7% | 16.8% | 20.0% | 24.0% | -0.08972 | -0.09542 |
Bahasa Cina biasanya lebih mudah untuk metrik emosi automatik, tetapi CER dan ketepatan emosi tidak semestinya bergerak bersama. Qwen3-TTS mengekalkan CER rendah dalam kedua-dua bahasa; IndexTTS-2 mencatat SenseVoice Jepun tertinggi tetapi CER Jepun paling buruk.
Ketepatan teks (CER)
Bagi ketepatan teks, Qwen3-TTS paling stabil: CER Jepun 8.6% dan CER Cina 9.7%. IndexTTS-2 ialah kes amaran kerana CER Jepun mencapai 91.0%.
Ketepatan emosi
SenseVoice
Dalam setup automatik ini, bahasa Cina jelas lebih mudah daripada Jepun. Untuk Qwen3-TTS, SenseVoice accuracy Cina ialah 53.3% manakala Jepun 15.0%, walaupun CER rendah dalam kedua-duanya.
fear dan disgust ialah label paling sukar. SenseVoice recall untuk kedua-duanya ialah 0.0% pada semua pasangan model/bahasa, kerap jatuh kepada sad, neutral, angry atau unknown.
Baris ialah emosi sasaran dan lajur ialah ramalan SenseVoice. Kotak hijau menunjukkan diagonal ideal.
| Kes | Apa yang berlaku | Mengapa penting |
|---|---|---|
indextts-2 / ja | happy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10. | Label emosi boleh nampak munasabah walaupun kualiti teks Jepun tidak boleh dipercayai. |
qwen3_tts_customvoice_1_7b / zh | happy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10. | Qwen ialah calon paling seimbang, tetapi emosi sukar masih collapse. |
cosyvoice_300m_instruct / ja | happy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10. | Naturalness tidak menjamin kawalan emosi yang boleh dikenali. |
fish_audio_s1_mini / zh | happy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10. | Marker emosi inline tidak mengubah prosody secara stabil. |
voxcpm2 / zh | happy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10. | Kawalan berasaskan prompt sering jatuh kepada pertuturan neutral. |
emotion2vec anchors
Metrik anchor menunjukkan corak serupa: anchor Cina lebih memihak daripada Jepun. Margin positif bermaksud audio lebih dekat kepada centroid emosi sasaran. Qwen3-TTS positif untuk Cina, sementara semua margin Jepun negatif.
Naturalness
| Model | Mean NISQA-TTS | Low NISQA-TTS <3.0 | Mean UTMOS | Low UTMOS <3.0 |
|---|---|---|---|---|
cosyvoice_300m_instruct | 4.267 | 0.0% | 3.282 | 20.8% |
indextts-2 | 4.063 | 11.7% | 2.078 | 93.3% |
qwen3_tts_customvoice_1_7b | 4.007 | 0.8% | 2.939 | 51.7% |
fish_audio_s1_mini | 3.935 | 3.3% | 2.932 | 55.8% |
voxcpm2 | 3.788 | 8.3% | 2.596 | 76.7% |
Naturalness dan ketepatan emosi ialah dua soalan berbeza. CosyVoice menang naturalness, tetapi bukan kawalan emosi. Qwen3-TTS sedikit di belakang pada NISQA-TTS, namun trade-off emosi, teks dan kelajuan lebih baik.
Contoh audio
Jadual di bawah menggunakan prompt index yang sama untuk sampel happy dan angry dalam Jepun dan Cina. Klip ini bukan human listening test, tetapi anchor kualitatif untuk metrik automatik.
| Model | Language | Target | SenseVoice prediction | Sample |
|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | JA | happy | unknown | |
qwen3_tts_customvoice_1_7b | JA | angry | angry | |
qwen3_tts_customvoice_1_7b | ZH | happy | neutral | |
qwen3_tts_customvoice_1_7b | ZH | angry | angry | |
cosyvoice_300m_instruct | JA | happy | unknown | |
cosyvoice_300m_instruct | JA | angry | unknown | |
cosyvoice_300m_instruct | ZH | happy | happy | |
cosyvoice_300m_instruct | ZH | angry | neutral | |
indextts-2 | JA | happy | sad | |
indextts-2 | JA | angry | surprised | |
indextts-2 | ZH | happy | neutral | |
indextts-2 | ZH | angry | neutral | |
fish_audio_s1_mini | JA | happy | happy | |
fish_audio_s1_mini | JA | angry | happy | |
fish_audio_s1_mini | ZH | happy | neutral | |
fish_audio_s1_mini | ZH | angry | neutral | |
voxcpm2 | JA | happy | unknown | |
voxcpm2 | JA | angry | angry | |
voxcpm2 | ZH | happy | happy | |
voxcpm2 | ZH | angry | angry |
Batasan
- Label emosi automatik bukan penilaian manusia. SenseVoice berguna kerana menyokong Jepun dan Cina, tetapi bias classifier dan ketidakseimbangan bahasa masih mungkin.
- Metrik anchor bergantung pada dataset anchor. Anchor Jepun datang daripada JVNV dan Cina daripada CSEMOTIONS; run ini tiada
ja/neutraldanzh/disgust. - IndexTTS-2 Jepun bersifat diagnostik. Pooled score nampak kuat, tetapi CER Jepun terlalu tinggi dalam setup ini.
Penyelidikan lanjut
- Jalankan MOS/CMOS kecil dengan penutur asli untuk Qwen3-TTS dan CosyVoice.
- Anggap IndexTTS-2 sebagai calon Cina buat masa ini, atau rerun selepas membaiki Japanese tokenizer/text path.
- Tambah atau kurasi anchor
ja/neutraldanzh/disgustyang hilang. - Lakukan human check Cina untuk
sad,angry,feardandisgust. - Gunakan SenseVoice sebagai saringan automatik, tetapi buat keputusan production dengan human listening tests.
Kesimpulan
Untuk TTS emosi Jepun dan Cina, Qwen3-TTS CustomVoice 1.7B ialah model paling seimbang dalam benchmark ini. Ia belum menyelesaikan semua emosi, tetapi memberi gabungan praktikal terbaik antara emotion recognition, CER rendah, anchor hit rate, naturalness dan runtime.