
완전 오프라인으로 동작하는 오픈소스 크로스 플랫폼 모바일 음성 번역 앱. 온디바이스 ASR(SenseVoice), 뉴럴 기계번역, TTS를 iOS/Android에서 시스템 오디오 캡처와 함께 구현
소스 코드:
- ios-android-offline-speech-translation — ASR, 번역, TTS, 시스템 오디오 캡처를 갖춘 iOS/Android 크로스 플랫폼 오프라인 음성 번역 앱 (Apache 2.0)
개요
iOS와 Android에서 완전 오프라인으로 동작하는 오픈소스 크로스 플랫폼 모바일 음성 번역 앱을 개발했습니다. 온디바이스 자동 음성 인식(SenseVoice Small, sherpa-onnx 기반), 뉴럴 기계번역(Apple Translation / Google ML Kit), 텍스트 음성 합성을 통합 파이프라인으로 구현했습니다. 양 플랫폼 모두 마이크와 시스템 오디오 캡처를 지원하여, 플랫폼 캡처 제약 범위 내에서 다른 앱(영상 통화, 미디어 등)의 오디오를 클라우드 연결 없이 번역할 수 있습니다. 온디바이스 ASR은 iPad Pro(A12X)에서 23.6 tok/s, Samsung Galaxy S10에서 33.6 tok/s(RTF < 0.1)를 달성합니다. 번역과 TTS 단계는 플랫폼 네이티브 엔진을 사용하며, 이번 릴리스에서는 별도 벤치마크를 진행하지 않았습니다.
동기
완전한 음성 번역 파이프라인(ASR, 기계번역, TTS)이 2018~2019년 일반 소비자 스마트폰에서 오프라인으로 안정적으로 동작할 수 있을까요? 온디바이스 AI 연구 벤치마크는 대개 개별 모델을 단독으로 평가하지만, 실제 애플리케이션에서는 여러 단계를 연결하고, 플랫폼 샌드박스 제약 속에서 시스템 오디오 캡처를 관리하며, 전체 생명주기(저장, 내보내기, 백그라운드 처리)를 처리해야 합니다.
이 프로젝트는 네트워크 연결 없이 실제 소비자 하드웨어에서 전체 파이프라인이 엔드투엔드로 동작하는지 시스템 실현 가능성을 검증합니다. 앱은 오픈소스로 공개되어 개발자가 아키텍처를 직접 평가할 수 있습니다.
앱 개요
iOS
| 홈 | 전사 + 번역 | 데모 |
|---|---|---|
![]() | ![]() | ![]() |
SenseVoice Small과 Apple Translation(영어 → 일본어) 및 TTS.
Android
| 전사 + 번역 | 데모 |
|---|---|
![]() | ![]() |
SenseVoice Small과 ML Kit 번역 및 TTS.
파이프라인 아키텍처
완전 오프라인 음성 번역 파이프라인을 구현했습니다.
| 단계 | 구성 요소 | 상세 |
|---|---|---|
| 오디오 입력 | 마이크 / 시스템 오디오 | 마이크 또는 시스템 오디오 캡처 |
| → ASR | SenseVoice Small | sherpa-onnx 기반 음성-텍스트 변환 (오프라인) |
| → 번역 | Apple Translation / Google ML Kit | 뉴럴 기계번역 (오프라인) |
| → TTS | 시스템 TTS | AVSpeechSynthesizer (iOS) / Android TextToSpeech |
| 오디오 출력 | 스피커 | 번역된 음성 재생 |
각 단계는 완전히 온디바이스로 실행되며 추론 시 네트워크 연결이 필요하지 않습니다.
지원 모델
iOS:
| 모델 | 엔진 | 지원 언어 |
|---|---|---|
| SenseVoice Small | sherpa-onnx offline | zh/en/ja/ko/yue |
| Apple Speech | SFSpeechRecognizer | 50개 이상 언어 |
Android:
| 모델 | 엔진 | 지원 언어 |
|---|---|---|
| SenseVoice Small | sherpa-onnx offline | zh/en/ja/ko/yue |
| Android Speech (오프라인) | SpeechRecognizer (온디바이스, API 31+) | 시스템 언어 |
| Android Speech (온라인) | SpeechRecognizer (표준) | 시스템 언어 |
번역 제공자
| 플랫폼 | 제공자 | 모드 | 지원 범위 |
|---|---|---|---|
| iOS | Apple Translation | 오프라인 (iOS 18+) | 20개 이상 언어 쌍 |
| Android | Google ML Kit | 오프라인 | 59개 언어 |
| Android | Android System Translation | 오프라인 (API 31+) | 시스템 언어 |
TTS
| 플랫폼 | 엔진 |
|---|---|
| iOS | AVSpeechSynthesizer |
| Android | Android TextToSpeech |
오디오 캡처 범위
이 앱은 마이크 입력과 다른 앱에서의 시스템 오디오 캡처를 모두 지원합니다(DRM 및 앱 수준 옵트아웃 등 플랫폼 제약을 따릅니다). 본 기사에서는 파이프라인 동작과 배포 결과에 초점을 맞추기 위해 저수준 캡처 구현 세부사항은 생략합니다. iOS 캡처 내부 구조는 오프라인 전사 프로젝트를 참조하세요: ios-mac-offline-transcribe.
데이터 저장 및 내보내기
양 플랫폼 모두 전사 기록을 로컬에 저장하고 내보내기를 지원합니다.
| 기능 | iOS | Android |
|---|---|---|
| 저장 | SwiftData (TranscriptionRecord) | Room (TranscriptionEntity, AppDatabase) |
| 오디오 파일 | SessionFileManager | AudioPlaybackManager |
| 내보내기 | ZIP 내보내기 (ZIPExporter) | ZIP 내보내기 (SessionExporter) |
한계
- ASR만 벤치마크: ASR 단계(SenseVoice Small)만 속도를 벤치마크했습니다. 번역 및 TTS 단계는 플랫폼 네이티브 엔진을 사용하며 개별 측정을 하지 않았습니다. 엔드투엔드 파이프라인 지연은 알 수 없습니다.
- 시스템 오디오 캡처 제한: 일부 앱은 오디오 캡처를 옵트아웃하므로 “다른 앱” 캡처가 보편적이지 않습니다.
- 2대의 기기로 테스트: Galaxy S10(2019)과 iPad Pro 3세대(2018)에서의 결과입니다. 다른 기기에서는 성능이 달라질 수 있습니다.
- 정확도 평가 미실시: ASR 전사 정확도(WER)와 번역 품질은 이번 릴리스에서 정식 측정하지 않았습니다.
향후 연구
- 엔드투엔드 지연 분석: ASR, 번역, TTS 각 단계를 개별 측정하고 전체 파이프라인 지연의 백분위수 보고.
- 품질 평가: ASR WER 및 주요 언어 쌍에 대한 번역 품질 지표와 사람 검증 추가.
- 기기 범위 확대: 2018~2026년 하드웨어 전반의 스케일링을 이해하기 위한 미드레인지 및 신형 NPU 탑재 기기 벤치마크.
- 백그라운드 안정성: 장시간 세션, 중단, 양 OS 플랫폼의 백그라운드 실행 정책 스트레스 테스트.
- 전력 및 발열: 지속적인 번역 세션에서의 배터리 소모 및 발열 스로틀링 정량화.
결론
완전 오프라인 음성 번역은 현재의 모바일 하드웨어에서 충분히 실용적입니다. ASR 단계(SenseVoice Small)는 2019년 Galaxy S10과 2018년 iPad Pro 3세대에서 23~34 tok/s, RTF < 0.1을 달성합니다. 번역과 TTS는 플랫폼 네이티브 엔진(Apple Translation / Google ML Kit 및 시스템 TTS)을 사용하며 별도 벤치마크를 하지 않았습니다. 엔드투엔드 파이프라인 지연은 발화 길이와 이후 단계에 따라 달라집니다.
시스템 오디오 캡처 기능 덕분에 번역은 마이크 입력을 넘어 다른 오디오 소스로 확장되어, 영상 통화, 미디어, 다른 앱의 오디오를 클라우드 연결 없이 번역할 수 있습니다.
네트워크 접근이 불안정하거나 데이터 프라이버시가 최우선인 엣지 배포 시나리오에서, 이 아키텍처는 전체 음성 번역 파이프라인이 소비자 하드웨어에서 완전히 온디바이스로 배포될 수 있음을 입증합니다. 앱은 Apache 2.0으로 오픈소스이며 추가 모델 및 벤치마크 결과의 커뮤니티 기여를 환영합니다.
참고 자료
저장소:
- ios-android-offline-speech-translation — 크로스 플랫폼 오프라인 음성 번역 앱 (Apache 2.0)
ASR 모델:
- SenseVoice Small — Alibaba의 다국어 ASR 모델 (zh/en/ja/ko/yue)
- Parakeet TDT 0.6B v3 — NVIDIA NeMo, 유럽 25개 언어
추론 엔진:
- sherpa-onnx — Next-gen Kaldi ONNX Runtime (온디바이스 음성 처리용)
번역:
- Apple Translation Framework — iOS 18+ 온디바이스 번역
- Google ML Kit Translation — Android 오프라인 번역







