ဂျပန်နှင့် တရုတ်ဘာသာ စိတ်ခံစားမှု TTS Benchmark

မော်ဒယ်များနှင့် ရည်ညွှန်းချက်များ:

အကျဉ်းချုပ်

ဂျပန်နှင့် တရုတ်ဘာသာအတွက် စိတ်ခံစားမှု TTS စနစ် ၅ ခုကို neutral, happy, sad, angry, fear, disgust ဆိုသော ခံစားချက် ၆ မျိုးဖြင့် benchmark လုပ်ခဲ့သည်။ စာကြောင်းများကို neutral ထားပြီး ခံစားချက်သည် speech style မှ ထွက်လာရမည်။

အကောင်းဆုံး balance ရှိသော candidate သည် Qwen3-TTS CustomVoice 1.7B ဖြစ်သည်။ CER နိမ့်ခြင်း၊ anchor hit rate ကောင်းခြင်း၊ naturalness ကောင်းခြင်းနှင့် ဂျပန်/တရုတ် နှစ်ဘာသာအတွက် အသုံးချနိုင်သော emotion performance ကို ပေးသည်။

CosyVoice 300M Instruct သည် naturalness တွင် ဦးဆောင်သော်လည်း emotion control မခိုင်မာသေးပါ။ IndexTTS-2 သည် pooled SenseVoice score တွင် ကောင်းသလို မြင်ရသော်လည်း ဂျပန် CER အလွန်မြင့်သည်။ တရုတ်ဘာသာသည် ဂျပန်ထက် လွယ်ကူပြီး fear နှင့် disgust သည် မဖြေရှင်းရသေးပါ။

ရည်ရွယ်ချက်

စိတ်ခံစားမှု TTS သည် အသံကို သဘာဝကျအောင်လုပ်ခြင်း တစ်ခုတည်းမဟုတ်ပါ။ မော်ဒယ်သည် စာကြောင်းမှန်ကန်စွာပြောရပြီး နားထောင်လို့ကောင်းကာ တောင်းဆိုထားသော ခံစားချက်ကို ဖော်ပြရမည်။ ထို့ကြောင့် benchmark သည် emotion recognition, anchors, CER, naturalness, runtime နှင့် audio samples များကို အတူကြည့်သည်။

ရည်ရွယ်ထားသော ဂျပန် သို့မဟုတ် တရုတ်စာကြောင်းသည် မှန်ကန်စွာ ဆက်ရှိရမည်။
အသံသည် လက်တွေ့နားထောင်ရန် လုံလောက်အောင် သဘာဝကျရမည်။
ထုတ်လုပ်သောအသံသည် neutral speech သို့မဟုတ် နီးစပ်သော emotion သို့ မကျဘဲ တောင်းဆိုထားသော စိတ်ခံစားမှုကို ဖော်ပြရမည်။

အကဲဖြတ်နည်းလမ်း

Benchmark သည် ဘာသာစကား၊ စိတ်ခံစားမှုနှင့် prompt text အလိုက် balanced generation grid ကိုသုံးသည်။ တူညီသော sentence ကို ခံစားချက် ၆ မျိုးလုံးအတွက် အသုံးပြုထားသဖြင့် model သည် prosody နှင့် voice style ဖြင့် ခံစားချက်ပြရမည်။

Experiment design

Prompt set

ဂျပန် prompt ဥပမာများ:

ID	စာကြောင်း
`ja_001`	会議は午前十時に始まります。
`ja_002`	資料は机の上に置いてあります。
`ja_003`	明日の予定を確認してください。
`ja_004`	電車は三番線から出発します。
`ja_005`	受付で名前を伝えてください。

တရုတ် prompt ဥပမာများ:

ID	စာကြောင်း
`zh_001`	会议将在上午十点开始。
`zh_002`	资料已经放在桌子上。
`zh_003`	请确认明天的日程安排。
`zh_004`	列车将从三号站台出发。
`zh_005`	请在前台告知您的姓名。

စိတ်ခံစားမှု ထိန်းချုပ်မှု

Target emotion	Control text
`neutral`	Speak in a clear, neutral, natural voice.
`happy`	Speak in a happy, warm, bright voice.
`sad`	Speak in a sad, soft, slow, gentle voice.
`angry`	Speak in an angry, tense, forceful voice.
`fear`	Speak in a fearful, tense, trembling voice.
`disgust`	Speak in a disgusted, displeased, rejecting voice.

မက်ထရစ်များ

SenseVoice စိတ်ခံစားမှု တိကျမှု: အဓိက automatic screening metric ဖြစ်သည်။
emotion2vec anchor hit နှင့် margin: emotional-speech anchor centroids ကိုအခြေခံသော secondary diagnostic metric ဖြစ်သည်။
CER: transcription ကို original prompt text နှင့် နှိုင်းယှဉ်ထားသော character error rate ဖြစ်သည်။
NISQA-TTS နှင့် UTMOS: synthesized speech ၏ naturalness နှင့် quality ကို စစ်ဆေးသော diagnostic metrics ဖြစ်သည်။
RTF: synthesis speed ကိုတိုင်းတာသော real-time factor ဖြစ်သည်။

ရလဒ်များ

Resource usage

Resource metrics များကို successful generations 600 ခုမှ တွက်ထားသည်။ GPU, VRAM, wall time နှင့် RTF ကို completed rows အားလုံးတွင် ရရှိပြီး CPU ကို server-backed adapters အချို့တွင် မဖမ်းယူနိုင်ပါ။

Model	Median wall time	Median RTF	Median peak VRAM	GPU util	GPU power	CPU	Median peak RSS
`cosyvoice_300m_instruct`	2.26s	0.85	3.96 GB	30.3% avg / 39.0% peak	145.0W avg / 155.6W peak	127.8% peak; 100% coverage	5.54 GB
`qwen3_tts_customvoice_1_7b`	4.20s	1.58	8.13 GB	22.9% avg / 25.0% peak	126.3W avg / 127.1W peak	138.1% peak; 100% coverage	6.22 GB
`fish_audio_s1_mini`	7.06s	3.47	13.05 GB	25.3% avg / 69.0% peak	150.4W avg / 183.7W peak	not captured; 0% coverage	0.80 GB
`indextts-2`	26.39s	6.97	7.29 GB	18.2% avg / 100.0% peak	131.3W avg / 199.6W peak	not captured; 0% coverage	7.69 GB
`voxcpm2`	28.44s	9.84	12.79 GB	12.3% avg / 100.0% peak	106.7W avg / 191.5W peak	not captured; 0% coverage	10.65 GB

CosyVoice သည် အမြန်ဆုံးနှင့် VRAM အနည်းဆုံး အသုံးပြုသော model ဖြစ်သော်လည်း emotion control အကောင်းဆုံးမဟုတ်ပါ။ Qwen3-TTS သည် CosyVoice ထက် VRAM ပိုသုံးသော်လည်း IndexTTS-2 နှင့် VoxCPM2 ထက် ပိုမြန်ပြီး balance ကောင်းသည်။

JA/ZH မက်ထရစ် အကျဉ်းချုပ်

ဤ table သည် SenseVoice emotion accuracy, CER နှင့် emotion2vec anchor alignment ကို ဂျပန်/တရုတ် ခွဲ၍ပြသည်။

Model	JA SenseVoice	ZH SenseVoice	JA CER	ZH CER	JA anchor hit	ZH anchor hit	JA anchor margin	ZH anchor margin
`qwen3_tts_customvoice_1_7b`	15.0%	53.3%	8.6%	9.7%	40.0%	64.0%	-0.06645	0.04480
`indextts-2`	43.3%	16.7%	91.0%	10.3%	38.0%	30.0%	-0.08293	-0.04063
`voxcpm2`	6.7%	35.0%	18.6%	4.4%	40.0%	36.0%	-0.04479	-0.02693
`cosyvoice_300m_instruct`	1.7%	36.7%	43.9%	11.1%	24.0%	72.0%	-0.05481	0.03796
`fish_audio_s1_mini`	6.7%	16.7%	12.7%	16.8%	20.0%	24.0%	-0.08972	-0.09542

Automatic emotion metrics တွင် တရုတ်ဘာသာသည် ပိုလွယ်သော်လည်း CER နှင့် emotion accuracy သည် အမြဲတမ်း အတူမရွေ့ပါ။ Qwen3-TTS သည် နှစ်ဘာသာလုံးတွင် CER နိမ့်ပြီး IndexTTS-2 သည် ဂျပန် SenseVoice score အမြင့်ဆုံး ဖြစ်သော်လည်း ဂျပန် CER အဆိုးဆုံးလည်း ဖြစ်သည်။

စာသားမှန်ကန်မှု (CER)

CER by language

Text fidelity တွင် Qwen3-TTS သည် အတည်ငြိမ်ဆုံးဖြစ်ပြီး ဂျပန် CER 8.6%, တရုတ် CER 9.7% ဖြစ်သည်။ IndexTTS-2 သည် ဂျပန် CER 91.0% ရှိသော warning case ဖြစ်သည်။

စိတ်ခံစားမှု တိကျမှု

SenseVoice

SenseVoice accuracy by language

ဤ automatic setup တွင် တရုတ်ဘာသာသည် ဂျပန်ထက် ထင်ရှားစွာလွယ်သည်။ Qwen3-TTS အတွက် တရုတ် SenseVoice accuracy 53.3% ဖြစ်ပြီး ဂျပန် 15.0% ဖြစ်သည်။ CER နှစ်ခုလုံးနိမ့်သဖြင့် ပြဿနာသည် intelligibility တစ်ခုတည်းမဟုတ်ပါ။

Per-emotion SenseVoice recall by model and language

fear နှင့် disgust သည် အခက်ဆုံး labels ဖြစ်သည်။ မော်ဒယ်/ဘာသာစကား အတွဲအားလုံးတွင် SenseVoice recall 0.0% ဖြစ်ပြီး sad, neutral, angry, unknown သို့ collapse ဖြစ်တတ်သည်။

Rows သည် target emotions ဖြစ်ပြီး columns သည် SenseVoice predictions ဖြစ်သည်။ Green boxes သည် ideal diagonal ကိုပြသည်။

Japanese SenseVoice confusion matrices

Chinese SenseVoice confusion matrices

ဖြစ်ရပ်	ဖြစ်ပျက်ခဲ့သည်	အရေးကြီးသည့် အကြောင်းရင်း
`indextts-2 / ja`	`happy` -> `sad` 4/10; `fear` -> `sad` 5/10; `disgust` -> `angry` 10/10.	ဂျပန်စာသားအရည်အသွေး မတည်ငြိမ်သော်လည်း emotion labels များသည် ယုတ္တိရှိသလို မြင်ရနိုင်သည်။
`qwen3_tts_customvoice_1_7b / zh`	`happy` -> `neutral` 5/10; `fear` -> `sad` 9/10; `disgust` -> `neutral` 9/10.	Qwen သည် balance အကောင်းဆုံး candidate ဖြစ်သော်လည်း ခက်ခဲသော emotions များသည် collapse ဖြစ်နေဆဲဖြစ်သည်။
`cosyvoice_300m_instruct / ja`	`happy` -> `unknown` 10/10; `fear` -> `unknown` 9/10; `disgust` -> `unknown` 8/10.	Naturalness ကောင်းခြင်းသည် recognizable emotional control ကို အာမခံမထားပါ။
`fish_audio_s1_mini / zh`	`happy` -> `neutral` 10/10; `fear` -> `neutral` 9/10; `disgust` -> `neutral` 8/10.	Inline emotion markers များသည် generated prosody ကို ယုံကြည်စိတ်ချစွာ မပြောင်းလဲနိုင်ခဲ့ပါ။
`voxcpm2 / zh`	`happy` -> `neutral` 7/10; `fear` -> `neutral` 6/10; `disgust` -> `neutral` 10/10.	Prompt-driven control သည် neutral speech သို့ မကြာခဏ collapse ဖြစ်ခဲ့သည်။

emotion2vec anchors

emotion2vec anchor hit and margin by language

Anchor metric သည် SenseVoice နှင့် ဆင်တူသော trend ကိုပြသည်။ တရုတ် anchors သည် ဂျပန် anchors ထက် အကျိုးရှိသည်။ Positive margin ဆိုသည်မှာ generated audio သည် target emotion centroid နှင့် ပိုနီးသည်။

သဘာဝကျမှု

Naturalness diagnostics by model

Model	Mean NISQA-TTS	Low NISQA-TTS <3.0	Mean UTMOS	Low UTMOS <3.0
`cosyvoice_300m_instruct`	4.267	0.0%	3.282	20.8%
`indextts-2`	4.063	11.7%	2.078	93.3%
`qwen3_tts_customvoice_1_7b`	4.007	0.8%	2.939	51.7%
`fish_audio_s1_mini`	3.935	3.3%	2.932	55.8%
`voxcpm2`	3.788	8.3%	2.596	76.7%

Naturalness နှင့် emotion correctness သည် မတူသော မေးခွန်းများဖြစ်သည်။ CosyVoice သည် naturalness တွင် အနိုင်ရသော်လည်း emotion control winner မဟုတ်ပါ။ Qwen3-TTS သည် NISQA-TTS တွင် နည်းနည်းနိမ့်သော်လည်း emotion/text/speed trade-off ပိုကောင်းသည်။

နားထောင်ရန် နမူနာများ

အောက်ပါ table တွင် ဂျပန်နှင့် တရုတ် happy, angry samples အတွက် prompt index တူညီစွာ အသုံးပြုထားသည်။ ဤ clips များသည် human listening test မဟုတ်ဘဲ automatic metrics ကိုနားလည်ရန် qualitative anchors ဖြစ်သည်။

Model	Language	Target	SenseVoice prediction
`qwen3_tts_customvoice_1_7b`	JA	happy	unknown
`qwen3_tts_customvoice_1_7b`	JA	angry	angry
`qwen3_tts_customvoice_1_7b`	ZH	happy	neutral
`qwen3_tts_customvoice_1_7b`	ZH	angry	angry
`cosyvoice_300m_instruct`	JA	happy	unknown
`cosyvoice_300m_instruct`	JA	angry	unknown
`cosyvoice_300m_instruct`	ZH	happy	happy
`cosyvoice_300m_instruct`	ZH	angry	neutral
`indextts-2`	JA	happy	sad
`indextts-2`	JA	angry	surprised
`indextts-2`	ZH	happy	neutral
`indextts-2`	ZH	angry	neutral
`fish_audio_s1_mini`	JA	happy	happy
`fish_audio_s1_mini`	JA	angry	happy
`fish_audio_s1_mini`	ZH	happy	neutral
`fish_audio_s1_mini`	ZH	angry	neutral
`voxcpm2`	JA	happy	unknown
`voxcpm2`	JA	angry	angry
`voxcpm2`	ZH	happy	happy
`voxcpm2`	ZH	angry	angry

ကန့်သတ်ချက်များ

Automatic emotion labels သည် human judgment မဟုတ်ပါ။ SenseVoice သည် ဂျပန်နှင့် တရုတ်ကို support လုပ်သော်လည်း classifier bias နှင့် language imbalance ရှိနိုင်သည်။
Anchor metrics သည် anchor datasets ပေါ်မူတည်သည်။ ဂျပန် anchors သည် JVNV မှ၊ တရုတ် anchors သည် CSEMOTIONS မှဖြစ်ပြီး ja/neutral နှင့် zh/disgust မပါဝင်ခဲ့ပါ။
IndexTTS-2 ဂျပန်ရလဒ်သည် diagnostic သာဖြစ်သည်။ Pooled score ကောင်းသလိုမြင်ရသော်လည်း ဂျပန် CER အလွန်မြင့်သည်။

နောက်ထပ် သုတေသန

Qwen3-TTS နှင့် CosyVoice အတွက် native-listener MOS/CMOS test ကိုပြုလုပ်ပါ။
IndexTTS-2 ကို ယာယီ တရုတ်ဘာသာ candidate အဖြစ်စဉ်းစားပါ၊ သို့မဟုတ် ဂျပန် tokenizer/text path ပြင်ပြီး rerun လုပ်ပါ။
ပျောက်နေသော ja/neutral နှင့် zh/disgust anchors များကို ထည့်ပါ သို့မဟုတ် curate လုပ်ပါ။
တရုတ် sad, angry, fear, disgust အတွက် human check လုပ်ပါ။
SenseVoice ကို automatic screening အဖြစ်သုံးပြီး production decisions ကို human listening tests ဖြင့်ချပါ။

နိဂုံး

ဂျပန်နှင့် တရုတ် စိတ်ခံစားမှု TTS အတွက် Qwen3-TTS CustomVoice 1.7B သည် ဤ benchmark တွင် အကောင်းဆုံး balance ရှိသော model ဖြစ်သည်။ ခံစားချက်အားလုံးကို မဖြေရှင်းနိုင်သေးသော်လည်း emotion recognition, low CER, anchor hit rate, naturalness နှင့် runtime အတွက် အသုံးချနိုင်သော mix ကို ပေးသည်။

စိတ်ခံစားမှု TTS Benchmark: ဂျပန်နှင့် တရုတ်ဘာသာအတွက် Qwen3-TTS, CosyVoice, IndexTTS-2, Fish Audio နှင့် VoxCPM