Text-to-Speech On-Device AI Benchmark Kokoro Piper Matcha Kitten Nano Offline TTS Android iOS

오프라인 TTS 벤치마크: Android/iOS에서 18개 모델 비교

Akinori Nakajima - VoicePing 5 분 읽기
오프라인 TTS 벤치마크: Android/iOS에서 18개 모델 비교

Kokoro, Piper, Matcha, Kitten, VITS를 포함한 Android/iOS용 18개 온디바이스 TTS 모델 종합 벤치마크

소스 코드:

개요

Android(7개 모델)와 iOS(11개 모델)에서 18개 온디바이스 TTS 모델을 2개 추론 엔진에 걸쳐 벤치마크하여 합성 속도(tok/s), 실시간 계수(RTF), 메모리 사용량을 측정했습니다. 모든 벤치마크는 영어 텍스트 프롬프트만 사용합니다. 결과적으로 Android System TTS와 Piper VITS가 가장 빠른 합성(Android에서 33~42 tok/s)을 달성했으며, Kokoro는 양 플랫폼 모두에서 실시간 미만의 속도를 보였습니다. iOS에서는 Apple 내장 AVSpeechSynthesizer가 최소한의 메모리 오버헤드로 종합 점수 1위이지만, 오픈소스 모델 중에서는 Matcha + Vocos가 속도와 리소스 효율성의 최적 균형을 제공합니다. 공식 청취 테스트(MOS/ABX)는 실시하지 않았으며, 본 벤치마크는 속도와 리소스 사용량만 측정합니다.

동기

TTS를 모바일 및 엣지 애플리케이션에 통합하는 개발자는 세 가지 트레이드오프에 직면합니다. 합성 지연(실시간 인터랙션을 따라갈 수 있는가?), 메모리 점유(ASR 등 다른 AI 모델과 메모리 제약 기기에서 공존할 수 있는가?), 음성 품질(사용 사례에 적합한 수준인가?). TTS 모델의 속도는 440ms 시스템 TTS부터 15초 Kokoro까지 35배 차이가 나며, 메모리는 21MB에서 833MB까지 다양합니다.

기존 TTS 비교는 대개 서버 하드웨어에서의 품질(MOS 점수)을 평가하지만, 온디바이스 배포에서는 품질만이 아닌 속도와 메모리가 핵심 제약입니다. 음질은 뛰어나지만 문장 하나에 15초가 걸리는 모델은 인터랙티브 애플리케이션에서 사용할 수 없습니다. 본 벤치마크는 개발자가 UX 트레이드오프 판단에 필요한 속도와 메모리 데이터를 제공합니다.

방법론

양 플랫폼에서 길이와 복잡도가 다른 12개 영어 텍스트 프롬프트의 표준 세트를 사용합니다. 본 벤치마크의 모든 결과는 영어 합성 성능만 반영하며, 다국어 모델을 다른 언어로 평가하지 않았습니다. 각 모델은 웜 모드(1회 웜업)로 평가하여 정상 상태 성능을 측정합니다.

측정 지표:

  • tok/s: 초당 합성되는 출력 토큰(단어) 수 (높을수록 빠름)
  • RTF: 실시간 계수 — 합성 시간과 오디오 길이의 비율 (1.0 미만 = 실시간보다 빠름)
  • 종합 점수: 복합 지표 (iOS 전용, 0~100 스케일) = 속도 점수(tok/s 정규화 + RTF 페널티)와 메모리 점수(메모리 사용량의 역수)의 가중 조합. RTF > 1.5인 모델은 속도 점수 0. 상세 공식은 ios-offline-tts-eval 소스 코드 참조. 이 점수에 음성 품질은 포함되지 않습니다.

테스트 기기:

기기RAMOS
Samsung Galaxy S10Exynos 98208 GBAndroid 12 (API 31)
iPad Pro 3세대A12X Bionic4 GBiPadOS 17+

Android 결과

기기: Samsung Galaxy S10, Android 12, API 31, 4 스레드

Android TTS 추론 속도 — 초당 토큰 수

모델엔진중앙값 합성 시간 (ms)중앙값 tok/s중앙값 RTF상태
Android System TTSandroid_system_tts44042.480.058PASS
Piper (ryan-low)sherpa-onnx47839.140.077PASS
Piper (amy-low)sherpa-onnx52433.390.076PASS
Matcha-Icefall (LJSpeech + HiFiGAN)sherpa-onnx1,10416.370.135PASS
Kitten Nano (en v0.2 fp16)sherpa-onnx3,5265.180.387PASS
Kokoro (en v0.19)sherpa-onnx8,2262.371.133PASS
Kokoro Int8 (multi-lang v1.1)sherpa-onnx15,3431.252.423PASS

7개 모델 모두 PASS — 8GB 기기에서 크래시나 OOM 없음.

Android 속도 관측

Android System TTS와 Piper VITS 모델이 가장 빠릅니다(33~42 tok/s). Kokoro 모델은 실시간 미만 속도(RTF > 1.0)이지만 높은 음성 품질을 목표로 설계되었습니다. Matcha-Icefall은 16 tok/s로 중간 수준입니다. 참고: 본 벤치마크는 속도와 리소스 사용량만 측정하며, 공식 청취 테스트(MOS)를 실시하지 않았으므로 품질 비교는 모델의 공표된 특성에 기반합니다.

Android TTS 실시간 계수

iOS 결과

기기: iPad Pro 3세대, A12X Bionic, 4 GB RAM

iOS TTS 종합 점수

모델엔진종합 점수속도 점수중앙값 tok/s중앙값 RTF메모리 (MB)
AVSpeech (System)native100.00151.3421
Matcha (LJSpeech) + Vocossherpa-onnx87.7794.3925.680.084211
Kitten Nano EN (v0.2 fp16)sherpa-onnx59.7275.455.140.368193
Kitten Nano (en v0.1 fp16)sherpa-onnx58.9072.865.610.407108
Kokoro EN (v0.19)sherpa-onnx43.5958.604.010.621833
Kitten Mini EN (v0.1 fp16)sherpa-onnx24.5724.301.631.135427
VITS LJS (Int8)sherpa-onnx21.410.001.202.023140
VITS VCTK (Int8)sherpa-onnx20.980.001.432.062122
VITS Melo (ZH+EN, Int8)sherpa-onnx20.070.000.832.874211
Kokoro Int8 (Multi-lang v1.0)sherpa-onnx17.060.001.401.822515
Kokoro Multi-lang INT8 (v1.1)sherpa-onnx16.910.001.711.569588

iOS 관측

  • AVSpeech는 메모리 사용량이 극히 적어(21MB, 오픈소스 모델은 100~800MB) 종합 점수 최고이지만, 음성 품질은 Apple 내장 음성에 한정됩니다.
  • Matcha + Vocos는 iOS에서 가장 우수한 오픈소스 옵션 — 빠른 속도(RTF 0.08), 높은 종합 점수(87.8), 적정 메모리(211MB).
  • Kitten Nano 모델은 양호한 균형 — RTF 0.5 미만, 적정 메모리(108~193 MB).
  • **Kokoro EN (v0.19)**은 종합 점수 43.6, RTF 0.62로 실시간보다 빠르지만, 833MB로 본 벤치마크에서 메모리 점유가 가장 큽니다.
  • VITSKokoro Int8 변형은 iPad에서 모두 실시간 미만(RTF > 1.0)으로 인터랙티브 용도에 부적합합니다.

한계

  • 음성 품질 평가 없음: 지각적 품질 지표(MOS, ABX, 청취 테스트)를 포함하지 않습니다. 품질 비교는 모델의 공표된 특성에만 기반합니다.
  • 영어만 테스트: 모든 프롬프트가 영어입니다. 다국어 모델(Kokoro multi-lang, VITS Melo ZH+EN)을 지원하는 다른 언어로 평가하지 않았습니다.
  • 플랫폼당 1대: Android 1대, iOS 1대의 결과입니다. 다른 칩셋에서는 성능이 다를 수 있습니다.
  • 종합 점수에 품질 미포함: iOS 복합 점수는 속도와 메모리 효율만 반영합니다. 고득점 모델이 반드시 가장 좋은 음질을 보장하지는 않습니다.

향후 연구

  • 지각 품질 연구: 사람 평가자를 통한 MOS/ABX 청취 테스트로 속도/메모리 지표를 넘어선 품질 검증.
  • 다국어 프롬프트: 영어 프롬프트만이 아닌 다국어 모델의 다른 언어 합성 품질 및 속도 평가.
  • 운율 및 스타일 제어: 대화 및 어시스턴트 사용 사례에 대한 제어 가능성(감정, 말하기 속도, 구두점 감도) 벤치마크.
  • 스트리밍 TTS 지연: 인터랙티브 어시스턴트를 위한 첫 오디오까지의 시간 및 청크 수준 지연 측정.
  • 압축 및 모바일 확장: 엄격한 모바일 RAM 환경에서의 INT8/INT4 및 음성 복제 변형 비교.

결론

온디바이스 TTS는 Android와 iOS 양쪽에서 실용적이지만, 모델 선택은 사용 사례에 크게 좌우됩니다. 실시간 인터랙티브 애플리케이션에는 Android System TTS / Piper(Android) 또는 Matcha + Vocos(iOS)가 RTF 1.0 이하의 빠른 합성을 제공합니다. 지연이 허용되는 사전 생성 오디오나 비인터랙티브 용도에서는 Kokoro가 합성 시간과 메모리 증가를 감수하고 더 풍부한 음성을 제공합니다. 시스템 TTS 엔진은 여전히 경쟁력이 있으며, Android 내장 TTS가 최고 속도(42 tok/s), Apple의 AVSpeechSynthesizer가 최소 리소스(21 MB)로 iOS 최고 점수를 기록합니다.

iOS에서 메모리 소비는 108 MB(Kitten Nano)에서 833 MB(Kokoro EN)까지 크게 다르며, 메모리 제약이 있는 엣지 기기에서 다른 AI 워크로드와 공존 가능 여부에 직접적으로 영향을 줍니다.

참고 자료

저장소:

모델:

  • Kokoro — StyleTTS2 기반 고품질 다국어 TTS
  • Piper — 다양한 음성을 지원하는 고속 VITS 기반 TTS
  • Matcha-TTS — Vocos 보코더를 활용한 Flow-matching TTS
  • Kitten Nano/Mini — 경량 뉴럴 TTS
  • MMS-TTS — Meta의 초다국어 음성 TTS (1,100개 이상 언어)

추론 엔진:

  • sherpa-onnx — Next-gen Kaldi ONNX Runtime (TTS 모델 지원)
이 기사 공유

VoicePing 무료로 시작하기

AI 번역으로 언어 장벽을 넘어보세요. 지금 무료로 시작하세요.

무료로 시작