ဂျပန်နှင့် တရုတ်ဘာသာ စိတ်ခံစားမှု TTS Benchmark | VoicePing
Text to Speech Emotional TTS Benchmark Qwen3 TTS CosyVoice IndexTTS Fish Audio VoxCPM Japanese Chinese Speech AI

စိတ်ခံစားမှု TTS Benchmark: ဂျပန်နှင့် တရုတ်ဘာသာအတွက် Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio နှင့် VoxCPM

VoicePing Research 6 မိနစ်ဖတ်ချိန်
စိတ်ခံစားမှု TTS Benchmark: ဂျပန်နှင့် တရုတ်ဘာသာအတွက် Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio နှင့် VoxCPM

ဂျပန်နှင့် တရုတ်ဘာသာအတွက် စိတ်ခံစားမှု TTS မော်ဒယ် ၅ ခုကို ခံစားချက် ၆ မျိုး၊ SenseVoice, emotion2vec anchors, CER, သဘာဝကျမှု၊ runtime နှင့် audio examples ဖြင့် နှိုင်းယှဉ်ထားသည်။

မော်ဒယ်များနှင့် ရည်ညွှန်းချက်များ:

အကျဉ်းချုပ်

ဂျပန်နှင့် တရုတ်ဘာသာအတွက် စိတ်ခံစားမှု TTS စနစ် ၅ ခုကို neutral, happy, sad, angry, fear, disgust ဆိုသော ခံစားချက် ၆ မျိုးဖြင့် benchmark လုပ်ခဲ့သည်။ စာကြောင်းများကို neutral ထားပြီး ခံစားချက်သည် speech style မှ ထွက်လာရမည်။

အကောင်းဆုံး balance ရှိသော candidate သည် Qwen3-TTS CustomVoice 1.7B ဖြစ်သည်။ CER နိမ့်ခြင်း၊ anchor hit rate ကောင်းခြင်း၊ naturalness ကောင်းခြင်းနှင့် ဂျပန်/တရုတ် နှစ်ဘာသာအတွက် အသုံးချနိုင်သော emotion performance ကို ပေးသည်။

CosyVoice 300M Instruct သည် naturalness တွင် ဦးဆောင်သော်လည်း emotion control မခိုင်မာသေးပါ။ IndexTTS-2 သည် pooled SenseVoice score တွင် ကောင်းသလို မြင်ရသော်လည်း ဂျပန် CER အလွန်မြင့်သည်။ တရုတ်ဘာသာသည် ဂျပန်ထက် လွယ်ကူပြီး fear နှင့် disgust သည် မဖြေရှင်းရသေးပါ။

ရည်ရွယ်ချက်

စိတ်ခံစားမှု TTS သည် အသံကို သဘာဝကျအောင်လုပ်ခြင်း တစ်ခုတည်းမဟုတ်ပါ။ မော်ဒယ်သည် စာကြောင်းမှန်ကန်စွာပြောရပြီး နားထောင်လို့ကောင်းကာ တောင်းဆိုထားသော ခံစားချက်ကို ဖော်ပြရမည်။ ထို့ကြောင့် benchmark သည် emotion recognition, anchors, CER, naturalness, runtime နှင့် audio samples များကို အတူကြည့်သည်။

  • ရည်ရွယ်ထားသော ဂျပန် သို့မဟုတ် တရုတ်စာကြောင်းသည် မှန်ကန်စွာ ဆက်ရှိရမည်။
  • အသံသည် လက်တွေ့နားထောင်ရန် လုံလောက်အောင် သဘာဝကျရမည်။
  • ထုတ်လုပ်သောအသံသည် neutral speech သို့မဟုတ် နီးစပ်သော emotion သို့ မကျဘဲ တောင်းဆိုထားသော စိတ်ခံစားမှုကို ဖော်ပြရမည်။

အကဲဖြတ်နည်းလမ်း

Benchmark သည် ဘာသာစကား၊ စိတ်ခံစားမှုနှင့် prompt text အလိုက် balanced generation grid ကိုသုံးသည်။ တူညီသော sentence ကို ခံစားချက် ၆ မျိုးလုံးအတွက် အသုံးပြုထားသဖြင့် model သည် prosody နှင့် voice style ဖြင့် ခံစားချက်ပြရမည်။

Experiment design

Prompt set

ဂျပန် prompt ဥပမာများ:

IDစာကြောင်း
ja_001会議は午前十時に始まります。
ja_002資料は机の上に置いてあります。
ja_003明日の予定を確認してください。
ja_004電車は三番線から出発します。
ja_005受付で名前を伝えてください。

တရုတ် prompt ဥပမာများ:

IDစာကြောင်း
zh_001会议将在上午十点开始。
zh_002资料已经放在桌子上。
zh_003请确认明天的日程安排。
zh_004列车将从三号站台出发。
zh_005请在前台告知您的姓名。

စိတ်ခံစားမှု ထိန်းချုပ်မှု

Target emotionControl text
neutralSpeak in a clear, neutral, natural voice.
happySpeak in a happy, warm, bright voice.
sadSpeak in a sad, soft, slow, gentle voice.
angrySpeak in an angry, tense, forceful voice.
fearSpeak in a fearful, tense, trembling voice.
disgustSpeak in a disgusted, displeased, rejecting voice.

မက်ထရစ်များ

  • SenseVoice စိတ်ခံစားမှု တိကျမှု: အဓိက automatic screening metric ဖြစ်သည်။
  • emotion2vec anchor hit နှင့် margin: emotional-speech anchor centroids ကိုအခြေခံသော secondary diagnostic metric ဖြစ်သည်။
  • CER: transcription ကို original prompt text နှင့် နှိုင်းယှဉ်ထားသော character error rate ဖြစ်သည်။
  • NISQA-TTS နှင့် UTMOS: synthesized speech ၏ naturalness နှင့် quality ကို စစ်ဆေးသော diagnostic metrics ဖြစ်သည်။
  • RTF: synthesis speed ကိုတိုင်းတာသော real-time factor ဖြစ်သည်။

ရလဒ်များ

Resource usage

Resource metrics များကို successful generations 600 ခုမှ တွက်ထားသည်။ GPU, VRAM, wall time နှင့် RTF ကို completed rows အားလုံးတွင် ရရှိပြီး CPU ကို server-backed adapters အချို့တွင် မဖမ်းယူနိုင်ပါ။

ModelMedian wall timeMedian RTFMedian peak VRAMGPU utilGPU powerCPUMedian peak RSS
cosyvoice_300m_instruct2.26s0.853.96 GB30.3% avg / 39.0% peak145.0W avg / 155.6W peak127.8% peak; 100% coverage5.54 GB
qwen3_tts_customvoice_1_7b4.20s1.588.13 GB22.9% avg / 25.0% peak126.3W avg / 127.1W peak138.1% peak; 100% coverage6.22 GB
fish_audio_s1_mini7.06s3.4713.05 GB25.3% avg / 69.0% peak150.4W avg / 183.7W peaknot captured; 0% coverage0.80 GB
indextts-226.39s6.977.29 GB18.2% avg / 100.0% peak131.3W avg / 199.6W peaknot captured; 0% coverage7.69 GB
voxcpm228.44s9.8412.79 GB12.3% avg / 100.0% peak106.7W avg / 191.5W peaknot captured; 0% coverage10.65 GB

CosyVoice သည် အမြန်ဆုံးနှင့် VRAM အနည်းဆုံး အသုံးပြုသော model ဖြစ်သော်လည်း emotion control အကောင်းဆုံးမဟုတ်ပါ။ Qwen3-TTS သည် CosyVoice ထက် VRAM ပိုသုံးသော်လည်း IndexTTS-2 နှင့် VoxCPM2 ထက် ပိုမြန်ပြီး balance ကောင်းသည်။

JA/ZH မက်ထရစ် အကျဉ်းချုပ်

ဤ table သည် SenseVoice emotion accuracy, CER နှင့် emotion2vec anchor alignment ကို ဂျပန်/တရုတ် ခွဲ၍ပြသည်။

ModelJA SenseVoiceZH SenseVoiceJA CERZH CERJA anchor hitZH anchor hitJA anchor marginZH anchor margin
qwen3_tts_customvoice_1_7b15.0%53.3%8.6%9.7%40.0%64.0%-0.066450.04480
indextts-243.3%16.7%91.0%10.3%38.0%30.0%-0.08293-0.04063
voxcpm26.7%35.0%18.6%4.4%40.0%36.0%-0.04479-0.02693
cosyvoice_300m_instruct1.7%36.7%43.9%11.1%24.0%72.0%-0.054810.03796
fish_audio_s1_mini6.7%16.7%12.7%16.8%20.0%24.0%-0.08972-0.09542

Automatic emotion metrics တွင် တရုတ်ဘာသာသည် ပိုလွယ်သော်လည်း CER နှင့် emotion accuracy သည် အမြဲတမ်း အတူမရွေ့ပါ။ Qwen3-TTS သည် နှစ်ဘာသာလုံးတွင် CER နိမ့်ပြီး IndexTTS-2 သည် ဂျပန် SenseVoice score အမြင့်ဆုံး ဖြစ်သော်လည်း ဂျပန် CER အဆိုးဆုံးလည်း ဖြစ်သည်။

စာသားမှန်ကန်မှု (CER)

CER by language

Text fidelity တွင် Qwen3-TTS သည် အတည်ငြိမ်ဆုံးဖြစ်ပြီး ဂျပန် CER 8.6%, တရုတ် CER 9.7% ဖြစ်သည်။ IndexTTS-2 သည် ဂျပန် CER 91.0% ရှိသော warning case ဖြစ်သည်။

စိတ်ခံစားမှု တိကျမှု

SenseVoice

SenseVoice accuracy by language

ဤ automatic setup တွင် တရုတ်ဘာသာသည် ဂျပန်ထက် ထင်ရှားစွာလွယ်သည်။ Qwen3-TTS အတွက် တရုတ် SenseVoice accuracy 53.3% ဖြစ်ပြီး ဂျပန် 15.0% ဖြစ်သည်။ CER နှစ်ခုလုံးနိမ့်သဖြင့် ပြဿနာသည် intelligibility တစ်ခုတည်းမဟုတ်ပါ။

Per-emotion SenseVoice recall by model and language

fear နှင့် disgust သည် အခက်ဆုံး labels ဖြစ်သည်။ မော်ဒယ်/ဘာသာစကား အတွဲအားလုံးတွင် SenseVoice recall 0.0% ဖြစ်ပြီး sad, neutral, angry, unknown သို့ collapse ဖြစ်တတ်သည်။

Rows သည် target emotions ဖြစ်ပြီး columns သည် SenseVoice predictions ဖြစ်သည်။ Green boxes သည် ideal diagonal ကိုပြသည်။

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

ဖြစ်ရပ်ဖြစ်ပျက်ခဲ့သည်အရေးကြီးသည့် အကြောင်းရင်း
indextts-2 / jahappy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10.ဂျပန်စာသားအရည်အသွေး မတည်ငြိမ်သော်လည်း emotion labels များသည် ယုတ္တိရှိသလို မြင်ရနိုင်သည်။
qwen3_tts_customvoice_1_7b / zhhappy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10.Qwen သည် balance အကောင်းဆုံး candidate ဖြစ်သော်လည်း ခက်ခဲသော emotions များသည် collapse ဖြစ်နေဆဲဖြစ်သည်။
cosyvoice_300m_instruct / jahappy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10.Naturalness ကောင်းခြင်းသည် recognizable emotional control ကို အာမခံမထားပါ။
fish_audio_s1_mini / zhhappy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10.Inline emotion markers များသည် generated prosody ကို ယုံကြည်စိတ်ချစွာ မပြောင်းလဲနိုင်ခဲ့ပါ။
voxcpm2 / zhhappy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10.Prompt-driven control သည် neutral speech သို့ မကြာခဏ collapse ဖြစ်ခဲ့သည်။

emotion2vec anchors

emotion2vec anchor hit and margin by language

Anchor metric သည် SenseVoice နှင့် ဆင်တူသော trend ကိုပြသည်။ တရုတ် anchors သည် ဂျပန် anchors ထက် အကျိုးရှိသည်။ Positive margin ဆိုသည်မှာ generated audio သည် target emotion centroid နှင့် ပိုနီးသည်။

သဘာဝကျမှု

Naturalness diagnostics by model

ModelMean NISQA-TTSLow NISQA-TTS <3.0Mean UTMOSLow UTMOS <3.0
cosyvoice_300m_instruct4.2670.0%3.28220.8%
indextts-24.06311.7%2.07893.3%
qwen3_tts_customvoice_1_7b4.0070.8%2.93951.7%
fish_audio_s1_mini3.9353.3%2.93255.8%
voxcpm23.7888.3%2.59676.7%

Naturalness နှင့် emotion correctness သည် မတူသော မေးခွန်းများဖြစ်သည်။ CosyVoice သည် naturalness တွင် အနိုင်ရသော်လည်း emotion control winner မဟုတ်ပါ။ Qwen3-TTS သည် NISQA-TTS တွင် နည်းနည်းနိမ့်သော်လည်း emotion/text/speed trade-off ပိုကောင်းသည်။

နားထောင်ရန် နမူနာများ

အောက်ပါ table တွင် ဂျပန်နှင့် တရုတ် happy, angry samples အတွက် prompt index တူညီစွာ အသုံးပြုထားသည်။ ဤ clips များသည် human listening test မဟုတ်ဘဲ automatic metrics ကိုနားလည်ရန် qualitative anchors ဖြစ်သည်။

ModelLanguageTargetSenseVoice predictionSample
qwen3_tts_customvoice_1_7bJAhappyunknown
qwen3_tts_customvoice_1_7bJAangryangry
qwen3_tts_customvoice_1_7bZHhappyneutral
qwen3_tts_customvoice_1_7bZHangryangry
cosyvoice_300m_instructJAhappyunknown
cosyvoice_300m_instructJAangryunknown
cosyvoice_300m_instructZHhappyhappy
cosyvoice_300m_instructZHangryneutral
indextts-2JAhappysad
indextts-2JAangrysurprised
indextts-2ZHhappyneutral
indextts-2ZHangryneutral
fish_audio_s1_miniJAhappyhappy
fish_audio_s1_miniJAangryhappy
fish_audio_s1_miniZHhappyneutral
fish_audio_s1_miniZHangryneutral
voxcpm2JAhappyunknown
voxcpm2JAangryangry
voxcpm2ZHhappyhappy
voxcpm2ZHangryangry

ကန့်သတ်ချက်များ

  • Automatic emotion labels သည် human judgment မဟုတ်ပါ။ SenseVoice သည် ဂျပန်နှင့် တရုတ်ကို support လုပ်သော်လည်း classifier bias နှင့် language imbalance ရှိနိုင်သည်။
  • Anchor metrics သည် anchor datasets ပေါ်မူတည်သည်။ ဂျပန် anchors သည် JVNV မှ၊ တရုတ် anchors သည် CSEMOTIONS မှဖြစ်ပြီး ja/neutral နှင့် zh/disgust မပါဝင်ခဲ့ပါ။
  • IndexTTS-2 ဂျပန်ရလဒ်သည် diagnostic သာဖြစ်သည်။ Pooled score ကောင်းသလိုမြင်ရသော်လည်း ဂျပန် CER အလွန်မြင့်သည်။

နောက်ထပ် သုတေသန

  • Qwen3-TTS နှင့် CosyVoice အတွက် native-listener MOS/CMOS test ကိုပြုလုပ်ပါ။
  • IndexTTS-2 ကို ယာယီ တရုတ်ဘာသာ candidate အဖြစ်စဉ်းစားပါ၊ သို့မဟုတ် ဂျပန် tokenizer/text path ပြင်ပြီး rerun လုပ်ပါ။
  • ပျောက်နေသော ja/neutral နှင့် zh/disgust anchors များကို ထည့်ပါ သို့မဟုတ် curate လုပ်ပါ။
  • တရုတ် sad, angry, fear, disgust အတွက် human check လုပ်ပါ။
  • SenseVoice ကို automatic screening အဖြစ်သုံးပြီး production decisions ကို human listening tests ဖြင့်ချပါ။

နိဂုံး

ဂျပန်နှင့် တရုတ် စိတ်ခံစားမှု TTS အတွက် Qwen3-TTS CustomVoice 1.7B သည် ဤ benchmark တွင် အကောင်းဆုံး balance ရှိသော model ဖြစ်သည်။ ခံစားချက်အားလုံးကို မဖြေရှင်းနိုင်သေးသော်လည်း emotion recognition, low CER, anchor hit rate, naturalness နှင့် runtime အတွက် အသုံးချနိုင်သော mix ကို ပေးသည်။

Share this article

VoicePing ကိုအခမဲ့စမ်းသုံးပါ

AI ဘာသာပြန်ခြင်းဖြင့် ဘာသာစကားအတားအဆီးများကိုဖြိုဖျက်ပါ။ ယနေ့အခမဲ့စမ်းသုံးခြင်းစတင်ပါ။

အခမဲ့စတင်ပါ