Penanda Aras TTS Emosi Bahasa Jepun dan Cina | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

Penanda Aras TTS Emosi: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio dan VoxCPM untuk Bahasa Jepun dan Cina

VoicePing Research 6 minit membaca
Penanda Aras TTS Emosi: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio dan VoxCPM untuk Bahasa Jepun dan Cina

Perbandingan lima model TTS emosi untuk bahasa Jepun dan Cina merentas enam emosi, SenseVoice, emotion2vec anchors, CER, naturalness, runtime dan contoh audio.

Model dan rujukan:

Abstrak

Kami menanda aras lima sistem TTS emosi untuk bahasa Jepun dan Cina merentas enam emosi sasaran: neutral, happy, sad, angry, fear dan disgust. Teks prompt dikekalkan neutral supaya emosi perlu datang daripada gaya pertuturan.

Calon paling seimbang ialah Qwen3-TTS CustomVoice 1.7B. Ia menunjukkan CER rendah, anchor hit rate terbaik, naturalness kukuh dan keseimbangan emosi/teks yang paling praktikal untuk Jepun dan Cina.

CosyVoice 300M Instruct mendahului naturalness tetapi kawalan emosinya lemah. IndexTTS-2 kelihatan baik pada pooled SenseVoice score, namun CER Jepun terlalu tinggi. Bahasa Cina lebih mudah daripada Jepun, manakala fear dan disgust masih belum selesai.

Motivasi

TTS emosi bukan sekadar menjadikan suara kedengaran natural. Model perlu menyebut ayat yang betul, mudah didengar dan menyampaikan emosi yang diminta. Oleh itu benchmark ini menggabungkan pengecaman emosi, emotion anchors, CER, naturalness, runtime dan contoh audio.

  • Ayat Jepun atau Cina yang dimaksudkan perlu kekal tepat.
  • Suara perlu kedengaran cukup natural untuk pendengaran sebenar.
  • Suara yang dijana perlu menyampaikan emosi yang diminta, bukan jatuh kepada pertuturan neutral atau emosi yang hampir sama.

Metodologi penilaian

Benchmark menggunakan grid generasi seimbang mengikut bahasa, emosi dan teks prompt. Ayat yang sama digunakan untuk enam emosi supaya model perlu bergantung pada prosody dan gaya suara.

Experiment design

Set prompt

Contoh prompt bahasa Jepun:

IDAyat
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

Contoh prompt bahasa Cina:

IDAyat
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

Kawalan emosi

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

Metrik

  • Ketepatan emosi SenseVoice: metrik utama untuk saringan automatik.
  • Anchor hit dan margin emotion2vec: metrik diagnostik tambahan berdasarkan centroid anchor pertuturan emosi.
  • CER: kadar ralat aksara apabila transkripsi dibandingkan dengan prompt asal.
  • NISQA-TTS dan UTMOS: metrik diagnostik untuk naturalness dan kualiti suara sintetik.
  • RTF: real-time factor untuk mengukur kelajuan sintesis.

Keputusan

Penggunaan sumber

Metrik sumber datang daripada 600 generasi berjaya. GPU, VRAM, wall time dan RTF diisi untuk semua baris selesai; CPU tidak sentiasa tertangkap untuk adapter berasaskan server.

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice paling pantas dan menggunakan VRAM paling rendah, tetapi bukan calon kawalan emosi terkuat. Qwen3-TTS menggunakan lebih VRAM daripada CosyVoice, namun jauh lebih pantas daripada IndexTTS-2 dan VoxCPM2 serta lebih seimbang.

Gambaran metrik JA/ZH

Jadual ini memisahkan Jepun dan Cina untuk tiga semakan utama: SenseVoice emotion accuracy, CER dan emotion2vec anchor alignment.

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Bahasa Cina biasanya lebih mudah untuk metrik emosi automatik, tetapi CER dan ketepatan emosi tidak semestinya bergerak bersama. Qwen3-TTS mengekalkan CER rendah dalam kedua-dua bahasa; IndexTTS-2 mencatat SenseVoice Jepun tertinggi tetapi CER Jepun paling buruk.

Ketepatan teks (CER)

CER by language

Bagi ketepatan teks, Qwen3-TTS paling stabil: CER Jepun 8.6% dan CER Cina 9.7%. IndexTTS-2 ialah kes amaran kerana CER Jepun mencapai 91.0%.

Ketepatan emosi

SenseVoice

SenseVoice accuracy by language

Dalam setup automatik ini, bahasa Cina jelas lebih mudah daripada Jepun. Untuk Qwen3-TTS, SenseVoice accuracy Cina ialah 53.3% manakala Jepun 15.0%, walaupun CER rendah dalam kedua-duanya.

Per-emotion SenseVoice recall by model and language

fear dan disgust ialah label paling sukar. SenseVoice recall untuk kedua-duanya ialah 0.0% pada semua pasangan model/bahasa, kerap jatuh kepada sad, neutral, angry atau unknown.

Baris ialah emosi sasaran dan lajur ialah ramalan SenseVoice. Kotak hijau menunjukkan diagonal ideal.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

KesApa yang berlakuMengapa penting
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.Label emosi boleh nampak munasabah walaupun kualiti teks Jepun tidak boleh dipercayai.
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen ialah calon paling seimbang, tetapi emosi sukar masih collapse.
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Naturalness tidak menjamin kawalan emosi yang boleh dikenali.
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Marker emosi inline tidak mengubah prosody secara stabil.
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Kawalan berasaskan prompt sering jatuh kepada pertuturan neutral.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Metrik anchor menunjukkan corak serupa: anchor Cina lebih memihak daripada Jepun. Margin positif bermaksud audio lebih dekat kepada centroid emosi sasaran. Qwen3-TTS positif untuk Cina, sementara semua margin Jepun negatif.

Naturalness

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Naturalness dan ketepatan emosi ialah dua soalan berbeza. CosyVoice menang naturalness, tetapi bukan kawalan emosi. Qwen3-TTS sedikit di belakang pada NISQA-TTS, namun trade-off emosi, teks dan kelajuan lebih baik.

Contoh audio

Jadual di bawah menggunakan prompt index yang sama untuk sampel happy dan angry dalam Jepun dan Cina. Klip ini bukan human listening test, tetapi anchor kualitatif untuk metrik automatik.

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

Batasan

  • Label emosi automatik bukan penilaian manusia. SenseVoice berguna kerana menyokong Jepun dan Cina, tetapi bias classifier dan ketidakseimbangan bahasa masih mungkin.
  • Metrik anchor bergantung pada dataset anchor. Anchor Jepun datang daripada JVNV dan Cina daripada CSEMOTIONS; run ini tiada ja/neutral dan zh/disgust.
  • IndexTTS-2 Jepun bersifat diagnostik. Pooled score nampak kuat, tetapi CER Jepun terlalu tinggi dalam setup ini.

Penyelidikan lanjut

  • Jalankan MOS/CMOS kecil dengan penutur asli untuk Qwen3-TTS dan CosyVoice.
  • Anggap IndexTTS-2 sebagai calon Cina buat masa ini, atau rerun selepas membaiki Japanese tokenizer/text path.
  • Tambah atau kurasi anchor ja/neutral dan zh/disgust yang hilang.
  • Lakukan human check Cina untuk sad, angry, fear dan disgust.
  • Gunakan SenseVoice sebagai saringan automatik, tetapi buat keputusan production dengan human listening tests.

Kesimpulan

Untuk TTS emosi Jepun dan Cina, Qwen3-TTS CustomVoice 1.7B ialah model paling seimbang dalam benchmark ini. Ia belum menyelesaikan semua emosi, tetapi memberi gabungan praktikal terbaik antara emotion recognition, CER rendah, anchor hit rate, naturalness dan runtime.

Share this article

Cuba VoicePing Secara Percuma

Hapuskan halangan bahasa dengan terjemahan AI. Mulakan percubaan percuma anda hari ini.

Mulakan Secara Percuma