
ဂျပန်နှင့် တရုတ်ဘာသာအတွက် စိတ်ခံစားမှု TTS မော်ဒယ် ၅ ခုကို ခံစားချက် ၆ မျိုး၊ SenseVoice, emotion2vec anchors, CER, သဘာဝကျမှု၊ runtime နှင့် audio examples ဖြင့် နှိုင်းယှဉ်ထားသည်။
မော်ဒယ်များနှင့် ရည်ညွှန်းချက်များ:
အကျဉ်းချုပ်
ဂျပန်နှင့် တရုတ်ဘာသာအတွက် စိတ်ခံစားမှု TTS စနစ် ၅ ခုကို neutral, happy, sad, angry, fear, disgust ဆိုသော ခံစားချက် ၆ မျိုးဖြင့် benchmark လုပ်ခဲ့သည်။ စာကြောင်းများကို neutral ထားပြီး ခံစားချက်သည် speech style မှ ထွက်လာရမည်။
အကောင်းဆုံး balance ရှိသော candidate သည် Qwen3-TTS CustomVoice 1.7B ဖြစ်သည်။ CER နိမ့်ခြင်း၊ anchor hit rate ကောင်းခြင်း၊ naturalness ကောင်းခြင်းနှင့် ဂျပန်/တရုတ် နှစ်ဘာသာအတွက် အသုံးချနိုင်သော emotion performance ကို ပေးသည်။
CosyVoice 300M Instruct သည် naturalness တွင် ဦးဆောင်သော်လည်း emotion control မခိုင်မာသေးပါ။ IndexTTS-2 သည် pooled SenseVoice score တွင် ကောင်းသလို မြင်ရသော်လည်း ဂျပန် CER အလွန်မြင့်သည်။ တရုတ်ဘာသာသည် ဂျပန်ထက် လွယ်ကူပြီး fear နှင့် disgust သည် မဖြေရှင်းရသေးပါ။
ရည်ရွယ်ချက်
စိတ်ခံစားမှု TTS သည် အသံကို သဘာဝကျအောင်လုပ်ခြင်း တစ်ခုတည်းမဟုတ်ပါ။ မော်ဒယ်သည် စာကြောင်းမှန်ကန်စွာပြောရပြီး နားထောင်လို့ကောင်းကာ တောင်းဆိုထားသော ခံစားချက်ကို ဖော်ပြရမည်။ ထို့ကြောင့် benchmark သည် emotion recognition, anchors, CER, naturalness, runtime နှင့် audio samples များကို အတူကြည့်သည်။
- ရည်ရွယ်ထားသော ဂျပန် သို့မဟုတ် တရုတ်စာကြောင်းသည် မှန်ကန်စွာ ဆက်ရှိရမည်။
- အသံသည် လက်တွေ့နားထောင်ရန် လုံလောက်အောင် သဘာဝကျရမည်။
- ထုတ်လုပ်သောအသံသည် neutral speech သို့မဟုတ် နီးစပ်သော emotion သို့ မကျဘဲ တောင်းဆိုထားသော စိတ်ခံစားမှုကို ဖော်ပြရမည်။
အကဲဖြတ်နည်းလမ်း
Benchmark သည် ဘာသာစကား၊ စိတ်ခံစားမှုနှင့် prompt text အလိုက် balanced generation grid ကိုသုံးသည်။ တူညီသော sentence ကို ခံစားချက် ၆ မျိုးလုံးအတွက် အသုံးပြုထားသဖြင့် model သည် prosody နှင့် voice style ဖြင့် ခံစားချက်ပြရမည်။
Prompt set
ဂျပန် prompt ဥပမာများ:
| ID | စာကြောင်း |
|---|---|
ja_001 | 会議は午前十時に始まります。 |
ja_002 | 資料は机の上に置いてあります。 |
ja_003 | 明日の予定を確認してください。 |
ja_004 | 電車は三番線から出発します。 |
ja_005 | 受付で名前を伝えてください。 |
တရုတ် prompt ဥပမာများ:
| ID | စာကြောင်း |
|---|---|
zh_001 | 会议将在上午十点开始。 |
zh_002 | 资料已经放在桌子上。 |
zh_003 | 请确认明天的日程安排。 |
zh_004 | 列车将从三号站台出发。 |
zh_005 | 请在前台告知您的姓名。 |
စိတ်ခံစားမှု ထိန်းချုပ်မှု
| Target emotion | Control text |
|---|---|
neutral | Speak in a clear, neutral, natural voice. |
happy | Speak in a happy, warm, bright voice. |
sad | Speak in a sad, soft, slow, gentle voice. |
angry | Speak in an angry, tense, forceful voice. |
fear | Speak in a fearful, tense, trembling voice. |
disgust | Speak in a disgusted, displeased, rejecting voice. |
မက်ထရစ်များ
- SenseVoice စိတ်ခံစားမှု တိကျမှု: အဓိက automatic screening metric ဖြစ်သည်။
- emotion2vec anchor hit နှင့် margin: emotional-speech anchor centroids ကိုအခြေခံသော secondary diagnostic metric ဖြစ်သည်။
- CER: transcription ကို original prompt text နှင့် နှိုင်းယှဉ်ထားသော character error rate ဖြစ်သည်။
- NISQA-TTS နှင့် UTMOS: synthesized speech ၏ naturalness နှင့် quality ကို စစ်ဆေးသော diagnostic metrics ဖြစ်သည်။
- RTF: synthesis speed ကိုတိုင်းတာသော real-time factor ဖြစ်သည်။
ရလဒ်များ
Resource usage
Resource metrics များကို successful generations 600 ခုမှ တွက်ထားသည်။ GPU, VRAM, wall time နှင့် RTF ကို completed rows အားလုံးတွင် ရရှိပြီး CPU ကို server-backed adapters အချို့တွင် မဖမ်းယူနိုင်ပါ။
| Model | Median wall time | Median RTF | Median peak VRAM | GPU util | GPU power | CPU | Median peak RSS |
|---|---|---|---|---|---|---|---|
cosyvoice_300m_instruct | 2.26s | 0.85 | 3.96 GB | 30.3% avg / 39.0% peak | 145.0W avg / 155.6W peak | 127.8% peak; 100% coverage | 5.54 GB |
qwen3_tts_customvoice_1_7b | 4.20s | 1.58 | 8.13 GB | 22.9% avg / 25.0% peak | 126.3W avg / 127.1W peak | 138.1% peak; 100% coverage | 6.22 GB |
fish_audio_s1_mini | 7.06s | 3.47 | 13.05 GB | 25.3% avg / 69.0% peak | 150.4W avg / 183.7W peak | not captured; 0% coverage | 0.80 GB |
indextts-2 | 26.39s | 6.97 | 7.29 GB | 18.2% avg / 100.0% peak | 131.3W avg / 199.6W peak | not captured; 0% coverage | 7.69 GB |
voxcpm2 | 28.44s | 9.84 | 12.79 GB | 12.3% avg / 100.0% peak | 106.7W avg / 191.5W peak | not captured; 0% coverage | 10.65 GB |
CosyVoice သည် အမြန်ဆုံးနှင့် VRAM အနည်းဆုံး အသုံးပြုသော model ဖြစ်သော်လည်း emotion control အကောင်းဆုံးမဟုတ်ပါ။ Qwen3-TTS သည် CosyVoice ထက် VRAM ပိုသုံးသော်လည်း IndexTTS-2 နှင့် VoxCPM2 ထက် ပိုမြန်ပြီး balance ကောင်းသည်။
JA/ZH မက်ထရစ် အကျဉ်းချုပ်
ဤ table သည် SenseVoice emotion accuracy, CER နှင့် emotion2vec anchor alignment ကို ဂျပန်/တရုတ် ခွဲ၍ပြသည်။
| Model | JA SenseVoice | ZH SenseVoice | JA CER | ZH CER | JA anchor hit | ZH anchor hit | JA anchor margin | ZH anchor margin |
|---|---|---|---|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | 15.0% | 53.3% | 8.6% | 9.7% | 40.0% | 64.0% | -0.06645 | 0.04480 |
indextts-2 | 43.3% | 16.7% | 91.0% | 10.3% | 38.0% | 30.0% | -0.08293 | -0.04063 |
voxcpm2 | 6.7% | 35.0% | 18.6% | 4.4% | 40.0% | 36.0% | -0.04479 | -0.02693 |
cosyvoice_300m_instruct | 1.7% | 36.7% | 43.9% | 11.1% | 24.0% | 72.0% | -0.05481 | 0.03796 |
fish_audio_s1_mini | 6.7% | 16.7% | 12.7% | 16.8% | 20.0% | 24.0% | -0.08972 | -0.09542 |
Automatic emotion metrics တွင် တရုတ်ဘာသာသည် ပိုလွယ်သော်လည်း CER နှင့် emotion accuracy သည် အမြဲတမ်း အတူမရွေ့ပါ။ Qwen3-TTS သည် နှစ်ဘာသာလုံးတွင် CER နိမ့်ပြီး IndexTTS-2 သည် ဂျပန် SenseVoice score အမြင့်ဆုံး ဖြစ်သော်လည်း ဂျပန် CER အဆိုးဆုံးလည်း ဖြစ်သည်။
စာသားမှန်ကန်မှု (CER)
Text fidelity တွင် Qwen3-TTS သည် အတည်ငြိမ်ဆုံးဖြစ်ပြီး ဂျပန် CER 8.6%, တရုတ် CER 9.7% ဖြစ်သည်။ IndexTTS-2 သည် ဂျပန် CER 91.0% ရှိသော warning case ဖြစ်သည်။
စိတ်ခံစားမှု တိကျမှု
SenseVoice
ဤ automatic setup တွင် တရုတ်ဘာသာသည် ဂျပန်ထက် ထင်ရှားစွာလွယ်သည်။ Qwen3-TTS အတွက် တရုတ် SenseVoice accuracy 53.3% ဖြစ်ပြီး ဂျပန် 15.0% ဖြစ်သည်။ CER နှစ်ခုလုံးနိမ့်သဖြင့် ပြဿနာသည် intelligibility တစ်ခုတည်းမဟုတ်ပါ။
fear နှင့် disgust သည် အခက်ဆုံး labels ဖြစ်သည်။ မော်ဒယ်/ဘာသာစကား အတွဲအားလုံးတွင် SenseVoice recall 0.0% ဖြစ်ပြီး sad, neutral, angry, unknown သို့ collapse ဖြစ်တတ်သည်။
Rows သည် target emotions ဖြစ်ပြီး columns သည် SenseVoice predictions ဖြစ်သည်။ Green boxes သည် ideal diagonal ကိုပြသည်။
| ဖြစ်ရပ် | ဖြစ်ပျက်ခဲ့သည် | အရေးကြီးသည့် အကြောင်းရင်း |
|---|---|---|
indextts-2 / ja | happy -> sad 4/10; fear -> sad 5/10; disgust -> angry 10/10. | ဂျပန်စာသားအရည်အသွေး မတည်ငြိမ်သော်လည်း emotion labels များသည် ယုတ္တိရှိသလို မြင်ရနိုင်သည်။ |
qwen3_tts_customvoice_1_7b / zh | happy -> neutral 5/10; fear -> sad 9/10; disgust -> neutral 9/10. | Qwen သည် balance အကောင်းဆုံး candidate ဖြစ်သော်လည်း ခက်ခဲသော emotions များသည် collapse ဖြစ်နေဆဲဖြစ်သည်။ |
cosyvoice_300m_instruct / ja | happy -> unknown 10/10; fear -> unknown 9/10; disgust -> unknown 8/10. | Naturalness ကောင်းခြင်းသည် recognizable emotional control ကို အာမခံမထားပါ။ |
fish_audio_s1_mini / zh | happy -> neutral 10/10; fear -> neutral 9/10; disgust -> neutral 8/10. | Inline emotion markers များသည် generated prosody ကို ယုံကြည်စိတ်ချစွာ မပြောင်းလဲနိုင်ခဲ့ပါ။ |
voxcpm2 / zh | happy -> neutral 7/10; fear -> neutral 6/10; disgust -> neutral 10/10. | Prompt-driven control သည် neutral speech သို့ မကြာခဏ collapse ဖြစ်ခဲ့သည်။ |
emotion2vec anchors
Anchor metric သည် SenseVoice နှင့် ဆင်တူသော trend ကိုပြသည်။ တရုတ် anchors သည် ဂျပန် anchors ထက် အကျိုးရှိသည်။ Positive margin ဆိုသည်မှာ generated audio သည် target emotion centroid နှင့် ပိုနီးသည်။
သဘာဝကျမှု
| Model | Mean NISQA-TTS | Low NISQA-TTS <3.0 | Mean UTMOS | Low UTMOS <3.0 |
|---|---|---|---|---|
cosyvoice_300m_instruct | 4.267 | 0.0% | 3.282 | 20.8% |
indextts-2 | 4.063 | 11.7% | 2.078 | 93.3% |
qwen3_tts_customvoice_1_7b | 4.007 | 0.8% | 2.939 | 51.7% |
fish_audio_s1_mini | 3.935 | 3.3% | 2.932 | 55.8% |
voxcpm2 | 3.788 | 8.3% | 2.596 | 76.7% |
Naturalness နှင့် emotion correctness သည် မတူသော မေးခွန်းများဖြစ်သည်။ CosyVoice သည် naturalness တွင် အနိုင်ရသော်လည်း emotion control winner မဟုတ်ပါ။ Qwen3-TTS သည် NISQA-TTS တွင် နည်းနည်းနိမ့်သော်လည်း emotion/text/speed trade-off ပိုကောင်းသည်။
နားထောင်ရန် နမူနာများ
အောက်ပါ table တွင် ဂျပန်နှင့် တရုတ် happy, angry samples အတွက် prompt index တူညီစွာ အသုံးပြုထားသည်။ ဤ clips များသည် human listening test မဟုတ်ဘဲ automatic metrics ကိုနားလည်ရန် qualitative anchors ဖြစ်သည်။
| Model | Language | Target | SenseVoice prediction | Sample |
|---|---|---|---|---|
qwen3_tts_customvoice_1_7b | JA | happy | unknown | |
qwen3_tts_customvoice_1_7b | JA | angry | angry | |
qwen3_tts_customvoice_1_7b | ZH | happy | neutral | |
qwen3_tts_customvoice_1_7b | ZH | angry | angry | |
cosyvoice_300m_instruct | JA | happy | unknown | |
cosyvoice_300m_instruct | JA | angry | unknown | |
cosyvoice_300m_instruct | ZH | happy | happy | |
cosyvoice_300m_instruct | ZH | angry | neutral | |
indextts-2 | JA | happy | sad | |
indextts-2 | JA | angry | surprised | |
indextts-2 | ZH | happy | neutral | |
indextts-2 | ZH | angry | neutral | |
fish_audio_s1_mini | JA | happy | happy | |
fish_audio_s1_mini | JA | angry | happy | |
fish_audio_s1_mini | ZH | happy | neutral | |
fish_audio_s1_mini | ZH | angry | neutral | |
voxcpm2 | JA | happy | unknown | |
voxcpm2 | JA | angry | angry | |
voxcpm2 | ZH | happy | happy | |
voxcpm2 | ZH | angry | angry |
ကန့်သတ်ချက်များ
- Automatic emotion labels သည် human judgment မဟုတ်ပါ။ SenseVoice သည် ဂျပန်နှင့် တရုတ်ကို support လုပ်သော်လည်း classifier bias နှင့် language imbalance ရှိနိုင်သည်။
- Anchor metrics သည် anchor datasets ပေါ်မူတည်သည်။ ဂျပန် anchors သည် JVNV မှ၊ တရုတ် anchors သည် CSEMOTIONS မှဖြစ်ပြီး
ja/neutralနှင့်zh/disgustမပါဝင်ခဲ့ပါ။ - IndexTTS-2 ဂျပန်ရလဒ်သည် diagnostic သာဖြစ်သည်။ Pooled score ကောင်းသလိုမြင်ရသော်လည်း ဂျပန် CER အလွန်မြင့်သည်။
နောက်ထပ် သုတေသန
- Qwen3-TTS နှင့် CosyVoice အတွက် native-listener MOS/CMOS test ကိုပြုလုပ်ပါ။
- IndexTTS-2 ကို ယာယီ တရုတ်ဘာသာ candidate အဖြစ်စဉ်းစားပါ၊ သို့မဟုတ် ဂျပန် tokenizer/text path ပြင်ပြီး rerun လုပ်ပါ။
- ပျောက်နေသော
ja/neutralနှင့်zh/disgustanchors များကို ထည့်ပါ သို့မဟုတ် curate လုပ်ပါ။ - တရုတ်
sad,angry,fear,disgustအတွက် human check လုပ်ပါ။ - SenseVoice ကို automatic screening အဖြစ်သုံးပြီး production decisions ကို human listening tests ဖြင့်ချပါ။
နိဂုံး
ဂျပန်နှင့် တရုတ် စိတ်ခံစားမှု TTS အတွက် Qwen3-TTS CustomVoice 1.7B သည် ဤ benchmark တွင် အကောင်းဆုံး balance ရှိသော model ဖြစ်သည်။ ခံစားချက်အားလုံးကို မဖြေရှင်းနိုင်သေးသော်လည်း emotion recognition, low CER, anchor hit rate, naturalness နှင့် runtime အတွက် အသုံးချနိုင်သော mix ကို ပေးသည်။