Penanda Aras TTS Emosi Bahasa Jepun dan Cina

Model dan rujukan:

Abstrak

Kami menanda aras lima sistem TTS emosi untuk bahasa Jepun dan Cina merentas enam emosi sasaran: neutral, happy, sad, angry, fear dan disgust. Teks prompt dikekalkan neutral supaya emosi perlu datang daripada gaya pertuturan.

Calon paling seimbang ialah Qwen3-TTS CustomVoice 1.7B. Ia menunjukkan CER rendah, anchor hit rate terbaik, naturalness kukuh dan keseimbangan emosi/teks yang paling praktikal untuk Jepun dan Cina.

CosyVoice 300M Instruct mendahului naturalness tetapi kawalan emosinya lemah. IndexTTS-2 kelihatan baik pada pooled SenseVoice score, namun CER Jepun terlalu tinggi. Bahasa Cina lebih mudah daripada Jepun, manakala fear dan disgust masih belum selesai.

Motivasi

TTS emosi bukan sekadar menjadikan suara kedengaran natural. Model perlu menyebut ayat yang betul, mudah didengar dan menyampaikan emosi yang diminta. Oleh itu benchmark ini menggabungkan pengecaman emosi, emotion anchors, CER, naturalness, runtime dan contoh audio.

Ayat Jepun atau Cina yang dimaksudkan perlu kekal tepat.
Suara perlu kedengaran cukup natural untuk pendengaran sebenar.
Suara yang dijana perlu menyampaikan emosi yang diminta, bukan jatuh kepada pertuturan neutral atau emosi yang hampir sama.

Metodologi penilaian

Benchmark menggunakan grid generasi seimbang mengikut bahasa, emosi dan teks prompt. Ayat yang sama digunakan untuk enam emosi supaya model perlu bergantung pada prosody dan gaya suara.

Experiment design

Set prompt

Contoh prompt bahasa Jepun:

ID	Ayat
`ja_001`	会議は午前十時に始まります。
`ja_002`	資料は机の上に置いてあります。
`ja_003`	明日の予定を確認してください。
`ja_004`	電車は三番線から出発します。
`ja_005`	受付で名前を伝えてください。

Contoh prompt bahasa Cina:

ID	Ayat
`zh_001`	会议将在上午十点开始。
`zh_002`	资料已经放在桌子上。
`zh_003`	请确认明天的日程安排。
`zh_004`	列车将从三号站台出发。
`zh_005`	请在前台告知您的姓名。

Kawalan emosi

Target emotion	Control text
`neutral`	Speak in a clear, neutral, natural voice.
`happy`	Speak in a happy, warm, bright voice.
`sad`	Speak in a sad, soft, slow, gentle voice.
`angry`	Speak in an angry, tense, forceful voice.
`fear`	Speak in a fearful, tense, trembling voice.
`disgust`	Speak in a disgusted, displeased, rejecting voice.

Metrik

Ketepatan emosi SenseVoice: metrik utama untuk saringan automatik.
Anchor hit dan margin emotion2vec: metrik diagnostik tambahan berdasarkan centroid anchor pertuturan emosi.
CER: kadar ralat aksara apabila transkripsi dibandingkan dengan prompt asal.
NISQA-TTS dan UTMOS: metrik diagnostik untuk naturalness dan kualiti suara sintetik.
RTF: real-time factor untuk mengukur kelajuan sintesis.

Keputusan

Penggunaan sumber

Metrik sumber datang daripada 600 generasi berjaya. GPU, VRAM, wall time dan RTF diisi untuk semua baris selesai; CPU tidak sentiasa tertangkap untuk adapter berasaskan server.

Model	Median wall time	Median RTF	Median peak VRAM	GPU util	GPU power	CPU	Median peak RSS
`cosyvoice_300m_instruct`	2.26s	0.85	3.96 GB	30.3% avg / 39.0% peak	145.0W avg / 155.6W peak	127.8% peak; 100% coverage	5.54 GB
`qwen3_tts_customvoice_1_7b`	4.20s	1.58	8.13 GB	22.9% avg / 25.0% peak	126.3W avg / 127.1W peak	138.1% peak; 100% coverage	6.22 GB
`fish_audio_s1_mini`	7.06s	3.47	13.05 GB	25.3% avg / 69.0% peak	150.4W avg / 183.7W peak	not captured; 0% coverage	0.80 GB
`indextts-2`	26.39s	6.97	7.29 GB	18.2% avg / 100.0% peak	131.3W avg / 199.6W peak	not captured; 0% coverage	7.69 GB
`voxcpm2`	28.44s	9.84	12.79 GB	12.3% avg / 100.0% peak	106.7W avg / 191.5W peak	not captured; 0% coverage	10.65 GB

CosyVoice paling pantas dan menggunakan VRAM paling rendah, tetapi bukan calon kawalan emosi terkuat. Qwen3-TTS menggunakan lebih VRAM daripada CosyVoice, namun jauh lebih pantas daripada IndexTTS-2 dan VoxCPM2 serta lebih seimbang.

Gambaran metrik JA/ZH

Jadual ini memisahkan Jepun dan Cina untuk tiga semakan utama: SenseVoice emotion accuracy, CER dan emotion2vec anchor alignment.

Model	JA SenseVoice	ZH SenseVoice	JA CER	ZH CER	JA anchor hit	ZH anchor hit	JA anchor margin	ZH anchor margin
`qwen3_tts_customvoice_1_7b`	15.0%	53.3%	8.6%	9.7%	40.0%	64.0%	-0.06645	0.04480
`indextts-2`	43.3%	16.7%	91.0%	10.3%	38.0%	30.0%	-0.08293	-0.04063
`voxcpm2`	6.7%	35.0%	18.6%	4.4%	40.0%	36.0%	-0.04479	-0.02693
`cosyvoice_300m_instruct`	1.7%	36.7%	43.9%	11.1%	24.0%	72.0%	-0.05481	0.03796
`fish_audio_s1_mini`	6.7%	16.7%	12.7%	16.8%	20.0%	24.0%	-0.08972	-0.09542

Bahasa Cina biasanya lebih mudah untuk metrik emosi automatik, tetapi CER dan ketepatan emosi tidak semestinya bergerak bersama. Qwen3-TTS mengekalkan CER rendah dalam kedua-dua bahasa; IndexTTS-2 mencatat SenseVoice Jepun tertinggi tetapi CER Jepun paling buruk.

Ketepatan teks (CER)

CER by language

Bagi ketepatan teks, Qwen3-TTS paling stabil: CER Jepun 8.6% dan CER Cina 9.7%. IndexTTS-2 ialah kes amaran kerana CER Jepun mencapai 91.0%.

Ketepatan emosi

SenseVoice

SenseVoice accuracy by language

Dalam setup automatik ini, bahasa Cina jelas lebih mudah daripada Jepun. Untuk Qwen3-TTS, SenseVoice accuracy Cina ialah 53.3% manakala Jepun 15.0%, walaupun CER rendah dalam kedua-duanya.

Per-emotion SenseVoice recall by model and language

fear dan disgust ialah label paling sukar. SenseVoice recall untuk kedua-duanya ialah 0.0% pada semua pasangan model/bahasa, kerap jatuh kepada sad, neutral, angry atau unknown.

Baris ialah emosi sasaran dan lajur ialah ramalan SenseVoice. Kotak hijau menunjukkan diagonal ideal.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

Kes	Apa yang berlaku	Mengapa penting
`indextts-2 / ja`	`happy` -> `sad` 4/10; `fear` -> `sad` 5/10; `disgust` -> `angry` 10/10.	Label emosi boleh nampak munasabah walaupun kualiti teks Jepun tidak boleh dipercayai.
`qwen3_tts_customvoice_1_7b / zh`	`happy` -> `neutral` 5/10; `fear` -> `sad` 9/10; `disgust` -> `neutral` 9/10.	Qwen ialah calon paling seimbang, tetapi emosi sukar masih collapse.
`cosyvoice_300m_instruct / ja`	`happy` -> `unknown` 10/10; `fear` -> `unknown` 9/10; `disgust` -> `unknown` 8/10.	Naturalness tidak menjamin kawalan emosi yang boleh dikenali.
`fish_audio_s1_mini / zh`	`happy` -> `neutral` 10/10; `fear` -> `neutral` 9/10; `disgust` -> `neutral` 8/10.	Marker emosi inline tidak mengubah prosody secara stabil.
`voxcpm2 / zh`	`happy` -> `neutral` 7/10; `fear` -> `neutral` 6/10; `disgust` -> `neutral` 10/10.	Kawalan berasaskan prompt sering jatuh kepada pertuturan neutral.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Metrik anchor menunjukkan corak serupa: anchor Cina lebih memihak daripada Jepun. Margin positif bermaksud audio lebih dekat kepada centroid emosi sasaran. Qwen3-TTS positif untuk Cina, sementara semua margin Jepun negatif.

Naturalness

Naturalness diagnostics by model

Model	Mean NISQA-TTS	Low NISQA-TTS <3.0	Mean UTMOS	Low UTMOS <3.0
`cosyvoice_300m_instruct`	4.267	0.0%	3.282	20.8%
`indextts-2`	4.063	11.7%	2.078	93.3%
`qwen3_tts_customvoice_1_7b`	4.007	0.8%	2.939	51.7%
`fish_audio_s1_mini`	3.935	3.3%	2.932	55.8%
`voxcpm2`	3.788	8.3%	2.596	76.7%

Naturalness dan ketepatan emosi ialah dua soalan berbeza. CosyVoice menang naturalness, tetapi bukan kawalan emosi. Qwen3-TTS sedikit di belakang pada NISQA-TTS, namun trade-off emosi, teks dan kelajuan lebih baik.

Contoh audio

Jadual di bawah menggunakan prompt index yang sama untuk sampel happy dan angry dalam Jepun dan Cina. Klip ini bukan human listening test, tetapi anchor kualitatif untuk metrik automatik.

Model	Language	Target	SenseVoice prediction
`qwen3_tts_customvoice_1_7b`	JA	happy	unknown
`qwen3_tts_customvoice_1_7b`	JA	angry	angry
`qwen3_tts_customvoice_1_7b`	ZH	happy	neutral
`qwen3_tts_customvoice_1_7b`	ZH	angry	angry
`cosyvoice_300m_instruct`	JA	happy	unknown
`cosyvoice_300m_instruct`	JA	angry	unknown
`cosyvoice_300m_instruct`	ZH	happy	happy
`cosyvoice_300m_instruct`	ZH	angry	neutral
`indextts-2`	JA	happy	sad
`indextts-2`	JA	angry	surprised
`indextts-2`	ZH	happy	neutral
`indextts-2`	ZH	angry	neutral
`fish_audio_s1_mini`	JA	happy	happy
`fish_audio_s1_mini`	JA	angry	happy
`fish_audio_s1_mini`	ZH	happy	neutral
`fish_audio_s1_mini`	ZH	angry	neutral
`voxcpm2`	JA	happy	unknown
`voxcpm2`	JA	angry	angry
`voxcpm2`	ZH	happy	happy
`voxcpm2`	ZH	angry	angry

Batasan

Label emosi automatik bukan penilaian manusia. SenseVoice berguna kerana menyokong Jepun dan Cina, tetapi bias classifier dan ketidakseimbangan bahasa masih mungkin.
Metrik anchor bergantung pada dataset anchor. Anchor Jepun datang daripada JVNV dan Cina daripada CSEMOTIONS; run ini tiada ja/neutral dan zh/disgust.
IndexTTS-2 Jepun bersifat diagnostik. Pooled score nampak kuat, tetapi CER Jepun terlalu tinggi dalam setup ini.

Penyelidikan lanjut

Jalankan MOS/CMOS kecil dengan penutur asli untuk Qwen3-TTS dan CosyVoice.
Anggap IndexTTS-2 sebagai calon Cina buat masa ini, atau rerun selepas membaiki Japanese tokenizer/text path.
Tambah atau kurasi anchor ja/neutral dan zh/disgust yang hilang.
Lakukan human check Cina untuk sad, angry, fear dan disgust.
Gunakan SenseVoice sebagai saringan automatik, tetapi buat keputusan production dengan human listening tests.

Kesimpulan

Untuk TTS emosi Jepun dan Cina, Qwen3-TTS CustomVoice 1.7B ialah model paling seimbang dalam benchmark ini. Ia belum menyelesaikan semua emosi, tetapi memberi gabungan praktikal terbaik antara emotion recognition, CER rendah, anchor hit rate, naturalness dan runtime.

Penanda Aras TTS Emosi: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio dan VoxCPM untuk Bahasa Jepun dan Cina