เบนช์มาร์ก TTS แสดงอารมณ์ภาษาญี่ปุ่นและภาษาจีน | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

เบนช์มาร์ก TTS แสดงอารมณ์: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio และ VoxCPM สำหรับภาษาญี่ปุ่นและภาษาจีน

VoicePing Research 5 นาที
เบนช์มาร์ก TTS แสดงอารมณ์: Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio และ VoxCPM สำหรับภาษาญี่ปุ่นและภาษาจีน

เปรียบเทียบโมเดล TTS แสดงอารมณ์ 5 ตัวสำหรับภาษาญี่ปุ่นและภาษาจีน ด้วย 6 อารมณ์, SenseVoice, emotion2vec anchors, CER, ความเป็นธรรมชาติ, ความเร็ว และตัวอย่างเสียง

โมเดลและเอกสารอ้างอิง:

สรุป

เรา benchmark ระบบ TTS แสดงอารมณ์ 5 ระบบสำหรับภาษาญี่ปุ่นและภาษาจีน โดยใช้ 6 อารมณ์เป้าหมาย: neutral, happy, sad, angry, fear, disgust ข้อความถูกทำให้เป็นกลางเพื่อให้อารมณ์ต้องมาจากรูปแบบการพูด

ตัวเลือกที่สมดุลที่สุดคือ Qwen3-TTS CustomVoice 1.7B เพราะมี CER ต่ำ, anchor hit rate ดี, ความเป็นธรรมชาติแข็งแรง และผลด้านอารมณ์ที่ใช้งานได้ดีที่สุดเมื่อดูทั้งญี่ปุ่นและจีน

CosyVoice 300M Instruct ให้เสียงเป็นธรรมชาติที่สุด แต่การควบคุมอารมณ์ยังอ่อน ส่วน IndexTTS-2 มี pooled SenseVoice score ดูดี แต่ CER ภาษาญี่ปุ่นสูงเกินไป จึงยังไม่ควรใช้เป็นหลักฐาน TTS ภาษาญี่ปุ่นที่เชื่อถือได้ ภาษาจีนง่ายกว่าญี่ปุ่น และ fear กับ disgust ยังเป็นปัญหาเปิด

แรงจูงใจ

TTS แสดงอารมณ์ไม่ใช่แค่ทำให้เสียงฟังดูเป็นธรรมชาติ ระบบต้องพูดประโยคให้ถูก ฟังได้ดี และแสดงอารมณ์ที่ขออย่างชัดเจน การประเมินนี้จึงรวมการรู้จำอารมณ์, emotion anchors, ความผิดพลาดของการถอดเสียง, ความเป็นธรรมชาติ, เวลาในการสร้าง และตัวอย่างเสียง

  • ประโยคภาษาญี่ปุ่นหรือภาษาจีนที่ต้องการต้องยังถูกต้อง
  • เสียงพูดควรเป็นธรรมชาติเพียงพอสำหรับการฟังจริง
  • เสียงที่สร้างควรแสดงอารมณ์ที่ขอ ไม่ใช่ถอยกลับไปเป็นเสียงกลางหรืออารมณ์ใกล้เคียง

วิธีประเมิน

การทดสอบใช้กริดที่สมดุลตามภาษา อารมณ์ และข้อความ prompt ประโยคเดียวกันถูกใช้กับทั้ง 6 อารมณ์ เพื่อบังคับให้โมเดลแสดงอารมณ์ผ่านน้ำเสียงและ prosody ไม่ใช่คำที่มีอารมณ์อยู่แล้ว

Experiment design

ชุดพรอมป์

ตัวอย่างพรอมป์ภาษาญี่ปุ่น:

IDประโยค
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

ตัวอย่างพรอมป์ภาษาจีน:

IDประโยค
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

การควบคุมอารมณ์

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

ตัวชี้วัด

  • ความแม่นยำอารมณ์ของ SenseVoice: ตัวชี้วัดหลักสำหรับการคัดกรองอัตโนมัติ
  • emotion2vec anchor hit และ margin: ตัวชี้วัดเสริมจาก centroid ของ anchor เสียงอารมณ์
  • CER: อัตราความผิดพลาดของตัวอักษรเมื่อเทียบ transcription กับ prompt ต้นฉบับ
  • NISQA-TTS และ UTMOS: ตัวชี้วัดความเป็นธรรมชาติและคุณภาพของเสียงสังเคราะห์
  • RTF: real-time factor สำหรับวัดความเร็วในการสังเคราะห์เสียง

ผลลัพธ์

การใช้ทรัพยากร

ตัวชี้วัดทรัพยากรมาจาก 600 แถวที่สร้างสำเร็จ GPU, VRAM, wall time และ RTF ถูกบันทึกครบ ส่วน CPU ไม่ได้ถูกเก็บครบใน adapter แบบ server-backed

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice เร็วที่สุดและใช้ VRAM ต่ำที่สุด แต่ไม่ใช่โมเดลที่ควบคุมอารมณ์ดีที่สุด Qwen3-TTS ใช้ VRAM มากกว่า CosyVoice แต่เร็วกว่า IndexTTS-2 และ VoxCPM2 มาก พร้อมให้สมดุลที่ดีที่สุดระหว่างอารมณ์และความถูกต้องของข้อความ

ภาพรวมตัวชี้วัด JA/ZH

ตารางนี้แยกภาษาญี่ปุ่นและภาษาจีนตามการตรวจหลักสามอย่าง: SenseVoice emotion accuracy, CER และ emotion2vec anchor alignment

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

ภาษาจีนโดยรวมง่ายกว่าในตัวชี้วัดอารมณ์อัตโนมัติ แต่ CER และความถูกต้องของอารมณ์ไม่ได้ไปในทิศทางเดียวกันเสมอ Qwen3-TTS รักษา CER ต่ำทั้งสองภาษา ส่วน IndexTTS-2 ได้ SenseVoice ภาษาญี่ปุ่นสูงสุดแต่ CER ภาษาญี่ปุ่นแย่ที่สุด

ความถูกต้องของข้อความ (CER)

CER by language

ด้านความถูกต้องของข้อความ Qwen3-TTS เสถียรที่สุด: CER ภาษาญี่ปุ่น 8.6% และภาษาจีน 9.7% IndexTTS-2 เป็นกรณีเตือน เพราะ CER ภาษาญี่ปุ่นสูงถึง 91.0%

ความถูกต้องของอารมณ์

SenseVoice

SenseVoice accuracy by language

ในชุดทดสอบอัตโนมัตินี้ ภาษาจีนง่ายกว่าญี่ปุ่นอย่างชัดเจน สำหรับ Qwen3-TTS ความแม่นยำ SenseVoice ภาษาจีนคือ 53.3% ส่วนญี่ปุ่นคือ 15.0% แม้ CER จะต่ำทั้งคู่ แปลว่าปัญหาไม่ใช่แค่ความชัดของคำพูด แต่เป็นสัญญาณอารมณ์ภาษาญี่ปุ่นที่อ่อนหรือไม่ตรงกับ SenseVoice

Per-emotion SenseVoice recall by model and language

fear และ disgust เป็นป้ายกำกับที่ยากที่สุด SenseVoice recall เป็น 0.0% ในทุกคู่โมเดล/ภาษา และมักถูกทำนายเป็น sad, neutral, angry หรือ unknown

แถวคืออารมณ์เป้าหมาย และคอลัมน์คือผลทำนายของ SenseVoice กล่องสีเขียวคือเส้นทแยงมุมที่ควรถูกต้อง

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

กรณีสิ่งที่เกิดขึ้นความหมาย
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.ป้ายอารมณ์อาจดูสมเหตุสมผล แม้คุณภาพข้อความภาษาญี่ปุ่นจะไม่น่าเชื่อถือ
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen เป็นตัวเลือกที่สมดุลที่สุด แต่อารมณ์ที่ยากยังคง collapse
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.ความเป็นธรรมชาติไม่ได้รับประกันว่า emotion control จะถูกจดจำได้
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.marker อารมณ์แบบ inline ไม่ได้เปลี่ยน prosody อย่างเสถียร
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.การควบคุมด้วย prompt มักถอยกลับไปเป็นเสียง neutral

emotion2vec anchors

emotion2vec anchor hit and margin by language

ตัวชี้วัด anchor ให้ภาพคล้าย SenseVoice: anchor ภาษาจีนดีกว่าญี่ปุ่น margin บวกหมายถึงเสียงที่สร้างใกล้ centroid ของอารมณ์เป้าหมายมากกว่า centroid อื่น Qwen3-TTS มี margin บวกในภาษาจีน แต่ margin ภาษาญี่ปุ่นทั้งหมดเป็นลบ

ความเป็นธรรมชาติ

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

ความเป็นธรรมชาติและความถูกต้องของอารมณ์เป็นคนละคำถาม CosyVoice ชนะด้านความเป็นธรรมชาติ แต่ไม่ชนะด้านการควบคุมอารมณ์ Qwen3-TTS ต่ำกว่าเล็กน้อยใน NISQA-TTS แต่สมดุลกว่าระหว่างอารมณ์ ความถูกต้องของประโยค และความเร็ว

ตัวอย่างเสียง

ตารางด้านล่างใช้ prompt index เดียวกันสำหรับตัวอย่าง happy และ angry ในภาษาญี่ปุ่นและภาษาจีน คลิปเหล่านี้ไม่ใช่ human listening test แต่เป็นจุดอ้างอิงเชิงคุณภาพสำหรับตัวชี้วัดอัตโนมัติ

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

ข้อจำกัด

  • ป้ายอารมณ์อัตโนมัติไม่ใช่การตัดสินของมนุษย์ SenseVoice มีประโยชน์เพราะรองรับญี่ปุ่นและจีน แต่ยังอาจมี bias ของ classifier และความไม่สมดุลตามภาษา
  • ตัวชี้วัด anchor ขึ้นกับชุดข้อมูล anchor Anchor ญี่ปุ่นมาจาก JVNV และจีนจาก CSEMOTIONS; รอบนี้ไม่มี ja/neutral และ zh/disgust
  • ผลภาษาญี่ปุ่นของ IndexTTS-2 เป็นเชิงวิเคราะห์เท่านั้น pooled score ดูดี แต่ CER ญี่ปุ่นสูงเกินไปในชุดทดสอบนี้

งานวิจัยต่อไป

  • ทำ MOS/CMOS ขนาดเล็กกับ native listeners สำหรับ Qwen3-TTS และ CosyVoice โดยแยกคะแนนความเป็นธรรมชาติ ความถูกต้องของอารมณ์ และความเข้าใจข้อความ
  • ใช้ IndexTTS-2 เป็นกรณีภาษาจีนก่อน หรือ rerun หลังแก้ tokenizer/text path ภาษาญี่ปุ่น
  • เติมหรือ curate anchor ที่ขาดสำหรับ ja/neutral และ zh/disgust
  • ตรวจมนุษย์เฉพาะภาษาจีนสำหรับ sad, angry, fear, disgust
  • ใช้ SenseVoice สำหรับคัดกรองอัตโนมัติ แต่ตัดสิน production ด้วย human listening tests

สรุปผล

สำหรับ TTS แสดงอารมณ์ภาษาญี่ปุ่นและภาษาจีน Qwen3-TTS CustomVoice 1.7B คือโมเดลที่สมดุลที่สุดใน benchmark นี้ มันยังไม่แก้ทุกอารมณ์ แต่ให้ส่วนผสมที่ใช้งานได้ดีที่สุดระหว่าง emotion recognition, CER ต่ำ, anchor hit rate, ความเป็นธรรมชาติ และเวลาในการสร้าง

แชร์บทความนี้

ทดลองใช้ VoicePing ฟรี

ก้าวข้ามกำแพงภาษาด้วยการแปล AI เริ่มต้นใช้งานฟรีวันนี้

เริ่มต้นฟรี