Benchmark TTS Emosional Bahasa Jepang dan Tionghoa

Model dan referensi:

Abstrak

Kami membenchmark lima sistem TTS emosional untuk bahasa Jepang dan Tionghoa dengan enam emosi target: neutral, happy, sad, angry, fear, dan disgust. Prompt dibuat netral agar emosi harus muncul dari gaya bicara.

Kandidat paling seimbang adalah Qwen3-TTS CustomVoice 1.7B. Model ini memiliki CER rendah, anchor hit rate terbaik, naturalness kuat, dan trade-off paling praktis untuk Jepang/Tionghoa.

CosyVoice 300M Instruct memimpin naturalness, tetapi kontrol emosinya lemah. IndexTTS-2 terlihat kuat pada pooled SenseVoice score, tetapi CER bahasa Jepang terlalu tinggi untuk dianggap andal. Bahasa Tionghoa lebih mudah daripada Jepang, sementara fear dan disgust masih belum terselesaikan.

Motivasi

TTS emosional bukan hanya soal suara yang terdengar natural. Model harus mengucapkan kalimat yang benar, tetap enak didengar, dan mengekspresikan emosi yang diminta. Karena itu evaluasi ini menggabungkan recognition emosi, anchor emosi, CER, naturalness, runtime, dan contoh audio.

Kalimat bahasa Jepang atau Tionghoa yang dimaksud harus tetap benar.
Suara harus terdengar cukup natural untuk didengarkan secara nyata.
Suara yang dihasilkan harus mengekspresikan emosi yang diminta, bukan jatuh ke suara netral atau emosi yang mirip.

Metodologi evaluasi

Benchmark memakai grid generasi yang seimbang menurut bahasa, emosi, dan prompt. Kalimat yang sama dipakai untuk enam emosi sehingga model harus mengandalkan prosodi dan gaya suara, bukan kata-kata emosional.

Experiment design

Set prompt

Contoh prompt bahasa Jepang:

ID	Kalimat
`ja_001`	会議は午前十時に始まります。
`ja_002`	資料は机の上に置いてあります。
`ja_003`	明日の予定を確認してください。
`ja_004`	電車は三番線から出発します。
`ja_005`	受付で名前を伝えてください。

Contoh prompt bahasa Tionghoa:

ID	Kalimat
`zh_001`	会议将在上午十点开始。
`zh_002`	资料已经放在桌子上。
`zh_003`	请确认明天的日程安排。
`zh_004`	列车将从三号站台出发。
`zh_005`	请在前台告知您的姓名。

Kontrol emosi

Target emotion	Control text
`neutral`	Speak in a clear, neutral, natural voice.
`happy`	Speak in a happy, warm, bright voice.
`sad`	Speak in a sad, soft, slow, gentle voice.
`angry`	Speak in an angry, tense, forceful voice.
`fear`	Speak in a fearful, tense, trembling voice.
`disgust`	Speak in a disgusted, displeased, rejecting voice.

Metrik

Akurasi emosi SenseVoice: metrik utama untuk penyaringan otomatis.
Anchor hit dan margin emotion2vec: metrik diagnostik tambahan berbasis centroid anchor ucapan emosional.
CER: tingkat kesalahan karakter dari transkripsi dibandingkan prompt asli.
NISQA-TTS dan UTMOS: metrik diagnostik untuk naturalness dan kualitas suara sintetis.
RTF: real-time factor untuk mengukur kecepatan sintesis.

Hasil

Penggunaan sumber daya

Metrik sumber daya berasal dari 600 baris generasi yang berhasil. GPU, VRAM, wall time, dan RTF terisi untuk semua baris selesai; CPU tidak selalu tertangkap untuk adapter berbasis server.

Model	Median wall time	Median RTF	Median peak VRAM	GPU util	GPU power	CPU	Median peak RSS
`cosyvoice_300m_instruct`	2.26s	0.85	3.96 GB	30.3% avg / 39.0% peak	145.0W avg / 155.6W peak	127.8% peak; 100% coverage	5.54 GB
`qwen3_tts_customvoice_1_7b`	4.20s	1.58	8.13 GB	22.9% avg / 25.0% peak	126.3W avg / 127.1W peak	138.1% peak; 100% coverage	6.22 GB
`fish_audio_s1_mini`	7.06s	3.47	13.05 GB	25.3% avg / 69.0% peak	150.4W avg / 183.7W peak	not captured; 0% coverage	0.80 GB
`indextts-2`	26.39s	6.97	7.29 GB	18.2% avg / 100.0% peak	131.3W avg / 199.6W peak	not captured; 0% coverage	7.69 GB
`voxcpm2`	28.44s	9.84	12.79 GB	12.3% avg / 100.0% peak	106.7W avg / 191.5W peak	not captured; 0% coverage	10.65 GB

CosyVoice paling cepat dan memakai VRAM paling rendah, tetapi bukan kandidat kontrol emosi terkuat. Qwen3-TTS memakai VRAM lebih besar daripada CosyVoice, namun jauh lebih cepat daripada IndexTTS-2 dan VoxCPM2 serta memiliki keseimbangan terbaik antara emosi dan fidelitas teks.

Ikhtisar metrik JA/ZH

Tabel split ini membandingkan Jepang dan Tionghoa untuk tiga pemeriksaan inti: akurasi emosi SenseVoice, CER, dan alignment anchor emotion2vec.

Model	JA SenseVoice	ZH SenseVoice	JA CER	ZH CER	JA anchor hit	ZH anchor hit	JA anchor margin	ZH anchor margin
`qwen3_tts_customvoice_1_7b`	15.0%	53.3%	8.6%	9.7%	40.0%	64.0%	-0.06645	0.04480
`indextts-2`	43.3%	16.7%	91.0%	10.3%	38.0%	30.0%	-0.08293	-0.04063
`voxcpm2`	6.7%	35.0%	18.6%	4.4%	40.0%	36.0%	-0.04479	-0.02693
`cosyvoice_300m_instruct`	1.7%	36.7%	43.9%	11.1%	24.0%	72.0%	-0.05481	0.03796
`fish_audio_s1_mini`	6.7%	16.7%	12.7%	16.8%	20.0%	24.0%	-0.08972	-0.09542

Bahasa Tionghoa umumnya lebih mudah untuk metrik emosi otomatis, tetapi CER dan akurasi emosi tidak selalu bergerak bersama. Qwen3-TTS menjaga CER rendah di dua bahasa; IndexTTS-2 memiliki skor SenseVoice Jepang tertinggi tetapi CER Jepang terburuk.

Fidelitas teks (CER)

CER by language

Untuk fidelitas teks, Qwen3-TTS paling stabil: CER Jepang 8.6% dan CER Tionghoa 9.7%. IndexTTS-2 menjadi kasus peringatan karena CER Jepang mencapai 91.0%.

Akurasi emosi

SenseVoice

SenseVoice accuracy by language

Dalam setup otomatis ini, bahasa Tionghoa jelas lebih mudah daripada Jepang. Pada Qwen3-TTS, akurasi SenseVoice Tionghoa 53.3% sementara Jepang 15.0%, meski CER rendah di kedua bahasa. Artinya masalahnya bukan hanya intelligibility, tetapi juga sinyal emosi Jepang yang lebih lemah atau kurang selaras dengan SenseVoice.

Per-emotion SenseVoice recall by model and language

fear dan disgust adalah label tersulit. SenseVoice recall untuk keduanya 0.0% di semua pasangan model/bahasa, sering jatuh ke sad, neutral, angry, atau unknown.

Baris adalah emosi target dan kolom adalah prediksi SenseVoice. Kotak hijau menunjukkan diagonal ideal.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

Kasus	Yang terjadi	Mengapa penting
`indextts-2 / ja`	`happy` -> `sad` 4/10; `fear` -> `sad` 5/10; `disgust` -> `angry` 10/10.	Label emosi bisa terlihat masuk akal walau kualitas teks Jepang tidak andal.
`qwen3_tts_customvoice_1_7b / zh`	`happy` -> `neutral` 5/10; `fear` -> `sad` 9/10; `disgust` -> `neutral` 9/10.	Qwen adalah pemenang paling seimbang, tetapi emosi sulit masih collapse.
`cosyvoice_300m_instruct / ja`	`happy` -> `unknown` 10/10; `fear` -> `unknown` 9/10; `disgust` -> `unknown` 8/10.	Naturalness tidak menjamin kontrol emosi yang dapat dikenali.
`fish_audio_s1_mini / zh`	`happy` -> `neutral` 10/10; `fear` -> `neutral` 9/10; `disgust` -> `neutral` 8/10.	Marker emosi inline tidak menggeser prosodi secara andal.
`voxcpm2 / zh`	`happy` -> `neutral` 7/10; `fear` -> `neutral` 6/10; `disgust` -> `neutral` 10/10.	Kontrol berbasis prompt sering jatuh ke ucapan netral.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Metrik anchor memberi cerita serupa dengan SenseVoice: anchor Tionghoa lebih menguntungkan daripada Jepang. Margin positif berarti audio lebih dekat ke centroid emosi target. Qwen3-TTS memiliki margin Tionghoa positif, sementara semua margin Jepang negatif.

Naturalness

Naturalness diagnostics by model

Model	Mean NISQA-TTS	Low NISQA-TTS <3.0	Mean UTMOS	Low UTMOS <3.0
`cosyvoice_300m_instruct`	4.267	0.0%	3.282	20.8%
`indextts-2`	4.063	11.7%	2.078	93.3%
`qwen3_tts_customvoice_1_7b`	4.007	0.8%	2.939	51.7%
`fish_audio_s1_mini`	3.935	3.3%	2.932	55.8%
`voxcpm2`	3.788	8.3%	2.596	76.7%

Naturalness dan kebenaran emosi adalah pertanyaan berbeda. CosyVoice menang naturalness, tetapi bukan pemenang kontrol emosi. Qwen3-TTS sedikit lebih rendah di NISQA-TTS, namun trade-off emosi, teks, dan kecepatan lebih baik.

Contoh audio

Tabel di bawah memakai prompt index yang sama untuk sampel happy dan angry dalam Jepang dan Tionghoa. Klip ini bukan human listening test, melainkan anchor kualitatif untuk membaca metrik otomatis.

Model	Language	Target	SenseVoice prediction
`qwen3_tts_customvoice_1_7b`	JA	happy	unknown
`qwen3_tts_customvoice_1_7b`	JA	angry	angry
`qwen3_tts_customvoice_1_7b`	ZH	happy	neutral
`qwen3_tts_customvoice_1_7b`	ZH	angry	angry
`cosyvoice_300m_instruct`	JA	happy	unknown
`cosyvoice_300m_instruct`	JA	angry	unknown
`cosyvoice_300m_instruct`	ZH	happy	happy
`cosyvoice_300m_instruct`	ZH	angry	neutral
`indextts-2`	JA	happy	sad
`indextts-2`	JA	angry	surprised
`indextts-2`	ZH	happy	neutral
`indextts-2`	ZH	angry	neutral
`fish_audio_s1_mini`	JA	happy	happy
`fish_audio_s1_mini`	JA	angry	happy
`fish_audio_s1_mini`	ZH	happy	neutral
`fish_audio_s1_mini`	ZH	angry	neutral
`voxcpm2`	JA	happy	unknown
`voxcpm2`	JA	angry	angry
`voxcpm2`	ZH	happy	happy
`voxcpm2`	ZH	angry	angry

Batasan

Label emosi otomatis bukan penilaian manusia. SenseVoice berguna karena mendukung Jepang dan Tionghoa, tetapi tetap bisa memiliki bias classifier dan ketimpangan bahasa.
Metrik anchor bergantung pada dataset anchor. Anchor Jepang berasal dari JVNV dan Tionghoa dari CSEMOTIONS; run ini tidak memiliki ja/neutral dan zh/disgust.
IndexTTS-2 Jepang bersifat diagnostik. Pooled score terlihat kuat, tetapi CER Jepang terlalu tinggi dalam setup ini.

Riset lanjutan

Jalankan MOS/CMOS kecil dengan penutur asli untuk Qwen3-TTS dan CosyVoice.
Perlakukan IndexTTS-2 sebagai kandidat Tionghoa untuk sementara, atau rerun setelah memperbaiki Japanese tokenizer/text path.
Tambahkan atau kurasi anchor ja/neutral dan zh/disgust yang hilang.
Lakukan human check Tionghoa untuk sad, angry, fear, dan disgust.
Gunakan SenseVoice sebagai screening otomatis, tetapi keputusan produksi tetap melalui human listening tests.

Kesimpulan

Untuk TTS emosional Jepang dan Tionghoa, Qwen3-TTS CustomVoice 1.7B adalah model paling seimbang dalam benchmark ini. Model ini belum menyelesaikan semua emosi, tetapi memberi kombinasi paling praktis antara emotion recognition, CER rendah, anchor hit rate, naturalness, dan runtime.

Benchmark TTS Emosional: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio, dan VoxCPM untuk Bahasa Jepang dan Tionghoa