오프라인 음성 번역 앱: iOS/Android 크로스 플랫폼 온디바이스 전사, 번역, TTS

소스 코드:

ios-android-offline-speech-translation — ASR, 번역, TTS, 시스템 오디오 캡처를 갖춘 iOS/Android 크로스 플랫폼 오프라인 음성 번역 앱 (Apache 2.0)

개요

iOS와 Android에서 완전 오프라인으로 동작하는 오픈소스 크로스 플랫폼 모바일 음성 번역 앱을 개발했습니다. 온디바이스 자동 음성 인식(SenseVoice Small, sherpa-onnx 기반), 뉴럴 기계번역(Apple Translation / Google ML Kit), 텍스트 음성 합성을 통합 파이프라인으로 구현했습니다. 양 플랫폼 모두 마이크와 시스템 오디오 캡처를 지원하여, 플랫폼 캡처 제약 범위 내에서 다른 앱(영상 통화, 미디어 등)의 오디오를 클라우드 연결 없이 번역할 수 있습니다. 온디바이스 ASR은 iPad Pro(A12X)에서 23.6 tok/s, Samsung Galaxy S10에서 33.6 tok/s(RTF < 0.1)를 달성합니다. 번역과 TTS 단계는 플랫폼 네이티브 엔진을 사용하며, 이번 릴리스에서는 별도 벤치마크를 진행하지 않았습니다.

동기

완전한 음성 번역 파이프라인(ASR, 기계번역, TTS)이 2018~2019년 일반 소비자 스마트폰에서 오프라인으로 안정적으로 동작할 수 있을까요? 온디바이스 AI 연구 벤치마크는 대개 개별 모델을 단독으로 평가하지만, 실제 애플리케이션에서는 여러 단계를 연결하고, 플랫폼 샌드박스 제약 속에서 시스템 오디오 캡처를 관리하며, 전체 생명주기(저장, 내보내기, 백그라운드 처리)를 처리해야 합니다.

이 프로젝트는 네트워크 연결 없이 실제 소비자 하드웨어에서 전체 파이프라인이 엔드투엔드로 동작하는지 시스템 실현 가능성을 검증합니다. 앱은 오픈소스로 공개되어 개발자가 아키텍처를 직접 평가할 수 있습니다.

앱 개요

iOS

홈	전사 + 번역	데모

SenseVoice Small과 Apple Translation(영어 → 일본어) 및 TTS.

Android

전사 + 번역	데모

SenseVoice Small과 ML Kit 번역 및 TTS.

파이프라인 아키텍처

완전 오프라인 음성 번역 파이프라인을 구현했습니다.

단계	구성 요소	상세
오디오 입력	마이크 / 시스템 오디오	마이크 또는 시스템 오디오 캡처
→ ASR	SenseVoice Small	sherpa-onnx 기반 음성-텍스트 변환 (오프라인)
→ 번역	Apple Translation / Google ML Kit	뉴럴 기계번역 (오프라인)
→ TTS	시스템 TTS	AVSpeechSynthesizer (iOS) / Android TextToSpeech
오디오 출력	스피커	번역된 음성 재생

각 단계는 완전히 온디바이스로 실행되며 추론 시 네트워크 연결이 필요하지 않습니다.

지원 모델

iOS:

모델	엔진	지원 언어
SenseVoice Small	sherpa-onnx offline	zh/en/ja/ko/yue
Apple Speech	SFSpeechRecognizer	50개 이상 언어

Android:

모델	엔진	지원 언어
SenseVoice Small	sherpa-onnx offline	zh/en/ja/ko/yue
Android Speech (오프라인)	SpeechRecognizer (온디바이스, API 31+)	시스템 언어
Android Speech (온라인)	SpeechRecognizer (표준)	시스템 언어

번역 제공자

플랫폼	제공자	모드	지원 범위
iOS	Apple Translation	오프라인 (iOS 18+)	20개 이상 언어 쌍
Android	Google ML Kit	오프라인	59개 언어
Android	Android System Translation	오프라인 (API 31+)	시스템 언어

TTS

플랫폼	엔진
iOS	AVSpeechSynthesizer
Android	Android TextToSpeech

오디오 캡처 범위

이 앱은 마이크 입력과 다른 앱에서의 시스템 오디오 캡처를 모두 지원합니다(DRM 및 앱 수준 옵트아웃 등 플랫폼 제약을 따릅니다). 본 기사에서는 파이프라인 동작과 배포 결과에 초점을 맞추기 위해 저수준 캡처 구현 세부사항은 생략합니다. iOS 캡처 내부 구조는 오프라인 전사 프로젝트를 참조하세요: ios-mac-offline-transcribe.

데이터 저장 및 내보내기

양 플랫폼 모두 전사 기록을 로컬에 저장하고 내보내기를 지원합니다.

기능	iOS	Android
저장	SwiftData (`TranscriptionRecord`)	Room (`TranscriptionEntity`, `AppDatabase`)
오디오 파일	`SessionFileManager`	`AudioPlaybackManager`
내보내기	ZIP 내보내기 (`ZIPExporter`)	ZIP 내보내기 (`SessionExporter`)

한계

ASR만 벤치마크: ASR 단계(SenseVoice Small)만 속도를 벤치마크했습니다. 번역 및 TTS 단계는 플랫폼 네이티브 엔진을 사용하며 개별 측정을 하지 않았습니다. 엔드투엔드 파이프라인 지연은 알 수 없습니다.
시스템 오디오 캡처 제한: 일부 앱은 오디오 캡처를 옵트아웃하므로 “다른 앱” 캡처가 보편적이지 않습니다.
2대의 기기로 테스트: Galaxy S10(2019)과 iPad Pro 3세대(2018)에서의 결과입니다. 다른 기기에서는 성능이 달라질 수 있습니다.
정확도 평가 미실시: ASR 전사 정확도(WER)와 번역 품질은 이번 릴리스에서 정식 측정하지 않았습니다.

향후 연구

엔드투엔드 지연 분석: ASR, 번역, TTS 각 단계를 개별 측정하고 전체 파이프라인 지연의 백분위수 보고.
품질 평가: ASR WER 및 주요 언어 쌍에 대한 번역 품질 지표와 사람 검증 추가.
기기 범위 확대: 2018~2026년 하드웨어 전반의 스케일링을 이해하기 위한 미드레인지 및 신형 NPU 탑재 기기 벤치마크.
백그라운드 안정성: 장시간 세션, 중단, 양 OS 플랫폼의 백그라운드 실행 정책 스트레스 테스트.
전력 및 발열: 지속적인 번역 세션에서의 배터리 소모 및 발열 스로틀링 정량화.

결론

완전 오프라인 음성 번역은 현재의 모바일 하드웨어에서 충분히 실용적입니다. ASR 단계(SenseVoice Small)는 2019년 Galaxy S10과 2018년 iPad Pro 3세대에서 23~34 tok/s, RTF < 0.1을 달성합니다. 번역과 TTS는 플랫폼 네이티브 엔진(Apple Translation / Google ML Kit 및 시스템 TTS)을 사용하며 별도 벤치마크를 하지 않았습니다. 엔드투엔드 파이프라인 지연은 발화 길이와 이후 단계에 따라 달라집니다.

시스템 오디오 캡처 기능 덕분에 번역은 마이크 입력을 넘어 다른 오디오 소스로 확장되어, 영상 통화, 미디어, 다른 앱의 오디오를 클라우드 연결 없이 번역할 수 있습니다.

네트워크 접근이 불안정하거나 데이터 프라이버시가 최우선인 엣지 배포 시나리오에서, 이 아키텍처는 전체 음성 번역 파이프라인이 소비자 하드웨어에서 완전히 온디바이스로 배포될 수 있음을 입증합니다. 앱은 Apache 2.0으로 오픈소스이며 추가 모델 및 벤치마크 결과의 커뮤니티 기여를 환영합니다.

참고 자료

저장소:

ios-android-offline-speech-translation — 크로스 플랫폼 오프라인 음성 번역 앱 (Apache 2.0)

ASR 모델:

SenseVoice Small — Alibaba의 다국어 ASR 모델 (zh/en/ja/ko/yue)
Parakeet TDT 0.6B v3 — NVIDIA NeMo, 유럽 25개 언어

추론 엔진:

sherpa-onnx — Next-gen Kaldi ONNX Runtime (온디바이스 음성 처리용)

번역:

Apple Translation Framework — iOS 18+ 온디바이스 번역
Google ML Kit Translation — Android 오프라인 번역

오프라인 음성 번역 앱: iOS/Android 크로스 플랫폼 온디바이스 전사, 번역, TTS

개요

동기

앱 개요

iOS

Android

파이프라인 아키텍처

지원 모델

번역 제공자

TTS

오디오 캡처 범위

데이터 저장 및 내보내기

한계

향후 연구

결론

참고 자료

VoicePing 무료로 시작하기

관련 기사

오프라인 음성 전사 벤치마크: Android/iOS/macOS/Windows에서 16개 모델 비교

음성 번역: EN-JA 양방향 번역에서 Qwen3-ASR vs Whisper

오프라인 TTS 벤치마크: Android/iOS에서 18개 모델 비교