Benchmark TTS Emosional Bahasa Jepang dan Tionghoa | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

Benchmark TTS Emosional: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio, dan VoxCPM untuk Bahasa Jepang dan Tionghoa

VoicePing Research 7 menit baca
Benchmark TTS Emosional: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio, dan VoxCPM untuk Bahasa Jepang dan Tionghoa

Membandingkan lima model TTS emosional untuk bahasa Jepang dan Tionghoa dengan enam emosi, SenseVoice, emotion2vec anchors, CER, naturalness, runtime, dan contoh audio.

Model dan referensi:

Abstrak

Kami membenchmark lima sistem TTS emosional untuk bahasa Jepang dan Tionghoa dengan enam emosi target: neutral, happy, sad, angry, fear, dan disgust. Prompt dibuat netral agar emosi harus muncul dari gaya bicara.

Kandidat paling seimbang adalah Qwen3-TTS CustomVoice 1.7B. Model ini memiliki CER rendah, anchor hit rate terbaik, naturalness kuat, dan trade-off paling praktis untuk Jepang/Tionghoa.

CosyVoice 300M Instruct memimpin naturalness, tetapi kontrol emosinya lemah. IndexTTS-2 terlihat kuat pada pooled SenseVoice score, tetapi CER bahasa Jepang terlalu tinggi untuk dianggap andal. Bahasa Tionghoa lebih mudah daripada Jepang, sementara fear dan disgust masih belum terselesaikan.

Motivasi

TTS emosional bukan hanya soal suara yang terdengar natural. Model harus mengucapkan kalimat yang benar, tetap enak didengar, dan mengekspresikan emosi yang diminta. Karena itu evaluasi ini menggabungkan recognition emosi, anchor emosi, CER, naturalness, runtime, dan contoh audio.

  • Kalimat bahasa Jepang atau Tionghoa yang dimaksud harus tetap benar.
  • Suara harus terdengar cukup natural untuk didengarkan secara nyata.
  • Suara yang dihasilkan harus mengekspresikan emosi yang diminta, bukan jatuh ke suara netral atau emosi yang mirip.

Metodologi evaluasi

Benchmark memakai grid generasi yang seimbang menurut bahasa, emosi, dan prompt. Kalimat yang sama dipakai untuk enam emosi sehingga model harus mengandalkan prosodi dan gaya suara, bukan kata-kata emosional.

Experiment design

Set prompt

Contoh prompt bahasa Jepang:

IDKalimat
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

Contoh prompt bahasa Tionghoa:

IDKalimat
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

Kontrol emosi

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

Metrik

  • Akurasi emosi SenseVoice: metrik utama untuk penyaringan otomatis.
  • Anchor hit dan margin emotion2vec: metrik diagnostik tambahan berbasis centroid anchor ucapan emosional.
  • CER: tingkat kesalahan karakter dari transkripsi dibandingkan prompt asli.
  • NISQA-TTS dan UTMOS: metrik diagnostik untuk naturalness dan kualitas suara sintetis.
  • RTF: real-time factor untuk mengukur kecepatan sintesis.

Hasil

Penggunaan sumber daya

Metrik sumber daya berasal dari 600 baris generasi yang berhasil. GPU, VRAM, wall time, dan RTF terisi untuk semua baris selesai; CPU tidak selalu tertangkap untuk adapter berbasis server.

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice paling cepat dan memakai VRAM paling rendah, tetapi bukan kandidat kontrol emosi terkuat. Qwen3-TTS memakai VRAM lebih besar daripada CosyVoice, namun jauh lebih cepat daripada IndexTTS-2 dan VoxCPM2 serta memiliki keseimbangan terbaik antara emosi dan fidelitas teks.

Ikhtisar metrik JA/ZH

Tabel split ini membandingkan Jepang dan Tionghoa untuk tiga pemeriksaan inti: akurasi emosi SenseVoice, CER, dan alignment anchor emotion2vec.

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Bahasa Tionghoa umumnya lebih mudah untuk metrik emosi otomatis, tetapi CER dan akurasi emosi tidak selalu bergerak bersama. Qwen3-TTS menjaga CER rendah di dua bahasa; IndexTTS-2 memiliki skor SenseVoice Jepang tertinggi tetapi CER Jepang terburuk.

Fidelitas teks (CER)

CER by language

Untuk fidelitas teks, Qwen3-TTS paling stabil: CER Jepang 8.6% dan CER Tionghoa 9.7%. IndexTTS-2 menjadi kasus peringatan karena CER Jepang mencapai 91.0%.

Akurasi emosi

SenseVoice

SenseVoice accuracy by language

Dalam setup otomatis ini, bahasa Tionghoa jelas lebih mudah daripada Jepang. Pada Qwen3-TTS, akurasi SenseVoice Tionghoa 53.3% sementara Jepang 15.0%, meski CER rendah di kedua bahasa. Artinya masalahnya bukan hanya intelligibility, tetapi juga sinyal emosi Jepang yang lebih lemah atau kurang selaras dengan SenseVoice.

Per-emotion SenseVoice recall by model and language

fear dan disgust adalah label tersulit. SenseVoice recall untuk keduanya 0.0% di semua pasangan model/bahasa, sering jatuh ke sad, neutral, angry, atau unknown.

Baris adalah emosi target dan kolom adalah prediksi SenseVoice. Kotak hijau menunjukkan diagonal ideal.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

KasusYang terjadiMengapa penting
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.Label emosi bisa terlihat masuk akal walau kualitas teks Jepang tidak andal.
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen adalah pemenang paling seimbang, tetapi emosi sulit masih collapse.
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Naturalness tidak menjamin kontrol emosi yang dapat dikenali.
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Marker emosi inline tidak menggeser prosodi secara andal.
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Kontrol berbasis prompt sering jatuh ke ucapan netral.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Metrik anchor memberi cerita serupa dengan SenseVoice: anchor Tionghoa lebih menguntungkan daripada Jepang. Margin positif berarti audio lebih dekat ke centroid emosi target. Qwen3-TTS memiliki margin Tionghoa positif, sementara semua margin Jepang negatif.

Naturalness

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Naturalness dan kebenaran emosi adalah pertanyaan berbeda. CosyVoice menang naturalness, tetapi bukan pemenang kontrol emosi. Qwen3-TTS sedikit lebih rendah di NISQA-TTS, namun trade-off emosi, teks, dan kecepatan lebih baik.

Contoh audio

Tabel di bawah memakai prompt index yang sama untuk sampel happy dan angry dalam Jepang dan Tionghoa. Klip ini bukan human listening test, melainkan anchor kualitatif untuk membaca metrik otomatis.

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

Batasan

  • Label emosi otomatis bukan penilaian manusia. SenseVoice berguna karena mendukung Jepang dan Tionghoa, tetapi tetap bisa memiliki bias classifier dan ketimpangan bahasa.
  • Metrik anchor bergantung pada dataset anchor. Anchor Jepang berasal dari JVNV dan Tionghoa dari CSEMOTIONS; run ini tidak memiliki ja/neutral dan zh/disgust.
  • IndexTTS-2 Jepang bersifat diagnostik. Pooled score terlihat kuat, tetapi CER Jepang terlalu tinggi dalam setup ini.

Riset lanjutan

  • Jalankan MOS/CMOS kecil dengan penutur asli untuk Qwen3-TTS dan CosyVoice.
  • Perlakukan IndexTTS-2 sebagai kandidat Tionghoa untuk sementara, atau rerun setelah memperbaiki Japanese tokenizer/text path.
  • Tambahkan atau kurasi anchor ja/neutral dan zh/disgust yang hilang.
  • Lakukan human check Tionghoa untuk sad, angry, fear, dan disgust.
  • Gunakan SenseVoice sebagai screening otomatis, tetapi keputusan produksi tetap melalui human listening tests.

Kesimpulan

Untuk TTS emosional Jepang dan Tionghoa, Qwen3-TTS CustomVoice 1.7B adalah model paling seimbang dalam benchmark ini. Model ini belum menyelesaikan semua emosi, tetapi memberi kombinasi paling praktis antara emotion recognition, CER rendah, anchor hit rate, naturalness, dan runtime.

Share this article

Coba VoicePing Gratis

Atasi hambatan bahasa dengan terjemahan AI. Mulai uji coba gratis Anda hari ini.

Mulai Gratis Sekarang