Benchmark TTS cảm xúc tiếng Nhật và tiếng Trung | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

Benchmark TTS cảm xúc: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio và VoxCPM cho tiếng Nhật và tiếng Trung

VoicePing Research 8 phút đọc
Benchmark TTS cảm xúc: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio và VoxCPM cho tiếng Nhật và tiếng Trung

So sánh năm mô hình TTS cảm xúc cho tiếng Nhật và tiếng Trung qua sáu cảm xúc, SenseVoice, emotion2vec anchors, CER, độ tự nhiên, tốc độ và mẫu nghe.

Mô hình và tài liệu tham khảo:

Tóm tắt

Chúng tôi benchmark năm hệ thống TTS cảm xúc cho tiếng Nhật và tiếng Trung với sáu nhãn cảm xúc: neutral, happy, sad, angry, fear, disgust. Nội dung câu được giữ trung tính để cảm xúc phải đến từ phong cách nói.

Ứng viên cân bằng nhất là Qwen3-TTS CustomVoice 1.7B: CER thấp, anchor hit rate tốt, độ tự nhiên mạnh và kết quả cảm xúc thực dụng nhất khi xét cả Nhật và Trung.

CosyVoice 300M Instruct dẫn đầu về độ tự nhiên, nhưng điều khiển cảm xúc còn yếu. IndexTTS-2 có điểm pooled SenseVoice khá cao, nhưng CER tiếng Nhật quá lớn nên không thể xem là kết quả TTS tiếng Nhật đáng tin cậy. Tiếng Trung dễ hơn tiếng Nhật, còn feardisgust vẫn chưa được giải quyết.

Động lực

TTS cảm xúc không chỉ là tạo giọng nghe tự nhiên. Hệ thống cần đọc đúng câu, đủ dễ nghe và thể hiện đúng cảm xúc được yêu cầu. Vì vậy benchmark này kết hợp nhận diện cảm xúc, anchor cảm xúc, lỗi chuyển âm, độ tự nhiên, tốc độ và mẫu nghe.

  • Câu tiếng Nhật hoặc tiếng Trung mục tiêu phải được giữ đúng.
  • Giọng nói cần đủ tự nhiên để nghe trong thực tế.
  • Giọng tạo ra cần thể hiện cảm xúc được yêu cầu, thay vì rơi về giọng trung tính hoặc một cảm xúc gần đó.

Phương pháp đánh giá

Benchmark dùng lưới tạo mẫu cân bằng theo ngôn ngữ, cảm xúc và câu prompt. Cùng một câu được dùng cho cả sáu cảm xúc, buộc mô hình thể hiện cảm xúc qua ngữ điệu và phong cách nói.

Experiment design

Tập prompt

Ví dụ prompt tiếng Nhật:

IDCâu
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

Ví dụ prompt tiếng Trung:

IDCâu
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

Điều khiển cảm xúc

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

Chỉ số

  • Độ chính xác cảm xúc SenseVoice: chỉ số sàng lọc tự động chính.
  • Anchor hit và margin của emotion2vec: chỉ số chẩn đoán phụ dựa trên tâm cụm anchor của giọng nói cảm xúc.
  • CER: tỷ lệ lỗi ký tự khi so sánh bản chuyển âm với prompt gốc.
  • NISQA-TTS và UTMOS: chỉ số chẩn đoán độ tự nhiên và chất lượng của giọng tổng hợp.
  • RTF: real-time factor dùng để đo tốc độ tổng hợp.

Kết quả

Mức sử dụng tài nguyên

Chỉ số tài nguyên được tính từ 600 mẫu tạo thành công. GPU, VRAM, wall time và RTF có trong tất cả hàng hoàn tất; CPU không luôn được ghi lại cho adapter chạy bên ngoài cây tiến trình được lấy mẫu.

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice nhanh nhất và dùng ít VRAM nhất, nhưng không phải ứng viên điều khiển cảm xúc mạnh nhất. Qwen3-TTS dùng nhiều VRAM hơn CosyVoice nhưng nhanh hơn nhiều so với IndexTTS-2 và VoxCPM2, đồng thời giữ cân bằng tốt nhất giữa cảm xúc và độ đúng văn bản.

Tổng quan chỉ số JA/ZH

Bảng này tách tiếng Nhật và tiếng Trung theo ba kiểm tra chính: độ chính xác SenseVoice, CER và độ khớp anchor emotion2vec.

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Tiếng Trung thường dễ hơn trong các chỉ số cảm xúc tự động, nhưng CER và độ chính xác cảm xúc không luôn đi cùng nhau. Qwen3-TTS giữ CER thấp ở cả hai ngôn ngữ; IndexTTS-2 có điểm SenseVoice tiếng Nhật cao nhất nhưng CER tiếng Nhật cũng tệ nhất.

Độ đúng văn bản (CER)

CER by language

Với độ đúng văn bản, Qwen3-TTS ổn định nhất: CER tiếng Nhật 8.6% và tiếng Trung 9.7%. IndexTTS-2 là trường hợp cảnh báo vì CER tiếng Nhật lên tới 91.0%.

Độ chính xác cảm xúc

SenseVoice

SenseVoice accuracy by language

Trong thiết lập tự động này, tiếng Trung rõ ràng dễ hơn tiếng Nhật. Với Qwen3-TTS, độ chính xác SenseVoice tiếng Trung là 53.3% còn tiếng Nhật là 15.0%, dù CER đều thấp. Điều này cho thấy vấn đề không chỉ là độ dễ hiểu mà còn là tín hiệu cảm xúc trong tiếng Nhật yếu hoặc không khớp với SenseVoice.

Per-emotion SenseVoice recall by model and language

feardisgust là hai nhãn khó nhất. Recall SenseVoice là 0.0% cho cả hai cảm xúc ở mọi cặp mô hình/ngôn ngữ, thường rơi vào sad, neutral, angry hoặc unknown.

Hàng là cảm xúc mục tiêu, cột là dự đoán của SenseVoice. Ô xanh là đường chéo lý tưởng.

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

Trường hợpĐiều quan sát đượcVì sao quan trọng
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.Nhãn cảm xúc có thể trông hợp lý dù chất lượng văn bản tiếng Nhật không đáng tin cậy.
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen là ứng viên cân bằng nhất, nhưng các cảm xúc khó vẫn bị sụp về nhãn khác.
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Độ tự nhiên cao không đảm bảo điều khiển cảm xúc có thể nhận ra được.
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Marker cảm xúc inline không thay đổi prosody một cách ổn định.
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Điều khiển bằng prompt thường rơi về giọng trung tính.

emotion2vec anchors

emotion2vec anchor hit and margin by language

Chỉ số anchor kể câu chuyện tương tự SenseVoice: anchor tiếng Trung thuận lợi hơn tiếng Nhật. Margin dương nghĩa là âm thanh gần centroid cảm xúc mục tiêu hơn centroid không mục tiêu gần nhất. Qwen3-TTS có margin dương cho tiếng Trung, còn mọi margin tiếng Nhật đều âm.

Độ tự nhiên

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Độ tự nhiên và độ đúng cảm xúc là hai câu hỏi khác nhau. CosyVoice thắng về độ tự nhiên, nhưng không thắng về điều khiển cảm xúc. Qwen3-TTS hơi thấp hơn về NISQA-TTS nhưng cân bằng hơn về cảm xúc, độ đúng câu và tốc độ.

Mẫu nghe

Bảng dưới dùng cùng prompt index cho mẫu happyangry trong tiếng Nhật và tiếng Trung. Đây không phải bài nghe của con người, mà là điểm neo định tính cho các chỉ số tự động.

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

Giới hạn

  • Nhãn cảm xúc tự động không phải phán đoán của con người. SenseVoice hữu ích vì hỗ trợ Nhật/Trung và có nhãn gần với benchmark, nhưng có thể có bias bộ phân loại và mất cân bằng theo ngôn ngữ.
  • Chỉ số anchor phụ thuộc vào bộ dữ liệu anchor. Anchor tiếng Nhật đến từ JVNV, tiếng Trung từ CSEMOTIONS; lần chạy này thiếu ja/neutralzh/disgust.
  • Kết quả tiếng Nhật của IndexTTS-2 chỉ có tính chẩn đoán. Điểm pooled có vẻ mạnh, nhưng CER tiếng Nhật quá cao trong thiết lập này.

Nghiên cứu tiếp theo

  • Chạy MOS/CMOS nhỏ với người bản ngữ cho Qwen3-TTS và CosyVoice, tách riêng độ tự nhiên, độ đúng cảm xúc và độ dễ hiểu.
  • Tạm xem IndexTTS-2 là hướng tiếng Trung, hoặc chạy lại sau khi sửa tokenizer/text path tiếng Nhật.
  • Bổ sung hoặc tuyển chọn anchor còn thiếu cho ja/neutralzh/disgust.
  • Kiểm tra người nghe tiếng Trung cho sad, angry, fear, disgust.
  • Dùng SenseVoice để sàng lọc tự động, nhưng quyết định sản phẩm bằng bài nghe con người.

Kết luận

Với TTS cảm xúc tiếng Nhật và tiếng Trung, Qwen3-TTS CustomVoice 1.7B là mô hình cân bằng nhất trong benchmark này. Nó chưa giải quyết mọi cảm xúc, nhưng có tổ hợp thực dụng nhất về nhận diện cảm xúc, CER thấp, anchor hit rate, độ tự nhiên và tốc độ.

Chia sẻ bài viết

Dùng thử VoicePing miễn phí

Vượt qua rào cản ngôn ngữ với dịch thuật AI. Bắt đầu miễn phí ngay.

Bắt đầu miễn phí