Speech Translation On-Device AI Offline Translation SenseVoice sherpa-onnx iOS Android Edge AI System Audio Capture Cross-Platform

오프라인 음성 번역 앱: iOS/Android 크로스 플랫폼 온디바이스 전사, 번역, TTS

Akinori Nakajima - VoicePing 4 분 읽기
오프라인 음성 번역 앱: iOS/Android 크로스 플랫폼 온디바이스 전사, 번역, TTS

완전 오프라인으로 동작하는 오픈소스 크로스 플랫폼 모바일 음성 번역 앱. 온디바이스 ASR(SenseVoice), 뉴럴 기계번역, TTS를 iOS/Android에서 시스템 오디오 캡처와 함께 구현

소스 코드:

개요

iOS와 Android에서 완전 오프라인으로 동작하는 오픈소스 크로스 플랫폼 모바일 음성 번역 앱을 개발했습니다. 온디바이스 자동 음성 인식(SenseVoice Small, sherpa-onnx 기반), 뉴럴 기계번역(Apple Translation / Google ML Kit), 텍스트 음성 합성을 통합 파이프라인으로 구현했습니다. 양 플랫폼 모두 마이크와 시스템 오디오 캡처를 지원하여, 플랫폼 캡처 제약 범위 내에서 다른 앱(영상 통화, 미디어 등)의 오디오를 클라우드 연결 없이 번역할 수 있습니다. 온디바이스 ASR은 iPad Pro(A12X)에서 23.6 tok/s, Samsung Galaxy S10에서 33.6 tok/s(RTF < 0.1)를 달성합니다. 번역과 TTS 단계는 플랫폼 네이티브 엔진을 사용하며, 이번 릴리스에서는 별도 벤치마크를 진행하지 않았습니다.

동기

완전한 음성 번역 파이프라인(ASR, 기계번역, TTS)이 2018~2019년 일반 소비자 스마트폰에서 오프라인으로 안정적으로 동작할 수 있을까요? 온디바이스 AI 연구 벤치마크는 대개 개별 모델을 단독으로 평가하지만, 실제 애플리케이션에서는 여러 단계를 연결하고, 플랫폼 샌드박스 제약 속에서 시스템 오디오 캡처를 관리하며, 전체 생명주기(저장, 내보내기, 백그라운드 처리)를 처리해야 합니다.

이 프로젝트는 네트워크 연결 없이 실제 소비자 하드웨어에서 전체 파이프라인이 엔드투엔드로 동작하는지 시스템 실현 가능성을 검증합니다. 앱은 오픈소스로 공개되어 개발자가 아키텍처를 직접 평가할 수 있습니다.

앱 개요

iOS

전사 + 번역데모
iOS 홈iOS 전사 + 번역iOS 데모

SenseVoice Small과 Apple Translation(영어 → 일본어) 및 TTS.

Android

전사 + 번역데모
Android 전사 + 번역Android 데모

SenseVoice Small과 ML Kit 번역 및 TTS.

파이프라인 아키텍처

완전 오프라인 음성 번역 파이프라인을 구현했습니다.

단계구성 요소상세
오디오 입력마이크 / 시스템 오디오마이크 또는 시스템 오디오 캡처
→ ASRSenseVoice Smallsherpa-onnx 기반 음성-텍스트 변환 (오프라인)
→ 번역Apple Translation / Google ML Kit뉴럴 기계번역 (오프라인)
→ TTS시스템 TTSAVSpeechSynthesizer (iOS) / Android TextToSpeech
오디오 출력스피커번역된 음성 재생

각 단계는 완전히 온디바이스로 실행되며 추론 시 네트워크 연결이 필요하지 않습니다.

지원 모델

iOS:

모델엔진지원 언어
SenseVoice Smallsherpa-onnx offlinezh/en/ja/ko/yue
Apple SpeechSFSpeechRecognizer50개 이상 언어

Android:

모델엔진지원 언어
SenseVoice Smallsherpa-onnx offlinezh/en/ja/ko/yue
Android Speech (오프라인)SpeechRecognizer (온디바이스, API 31+)시스템 언어
Android Speech (온라인)SpeechRecognizer (표준)시스템 언어

번역 제공자

플랫폼제공자모드지원 범위
iOSApple Translation오프라인 (iOS 18+)20개 이상 언어 쌍
AndroidGoogle ML Kit오프라인59개 언어
AndroidAndroid System Translation오프라인 (API 31+)시스템 언어

TTS

플랫폼엔진
iOSAVSpeechSynthesizer
AndroidAndroid TextToSpeech

오디오 캡처 범위

이 앱은 마이크 입력과 다른 앱에서의 시스템 오디오 캡처를 모두 지원합니다(DRM 및 앱 수준 옵트아웃 등 플랫폼 제약을 따릅니다). 본 기사에서는 파이프라인 동작과 배포 결과에 초점을 맞추기 위해 저수준 캡처 구현 세부사항은 생략합니다. iOS 캡처 내부 구조는 오프라인 전사 프로젝트를 참조하세요: ios-mac-offline-transcribe.

데이터 저장 및 내보내기

양 플랫폼 모두 전사 기록을 로컬에 저장하고 내보내기를 지원합니다.

기능iOSAndroid
저장SwiftData (TranscriptionRecord)Room (TranscriptionEntity, AppDatabase)
오디오 파일SessionFileManagerAudioPlaybackManager
내보내기ZIP 내보내기 (ZIPExporter)ZIP 내보내기 (SessionExporter)

한계

  • ASR만 벤치마크: ASR 단계(SenseVoice Small)만 속도를 벤치마크했습니다. 번역 및 TTS 단계는 플랫폼 네이티브 엔진을 사용하며 개별 측정을 하지 않았습니다. 엔드투엔드 파이프라인 지연은 알 수 없습니다.
  • 시스템 오디오 캡처 제한: 일부 앱은 오디오 캡처를 옵트아웃하므로 “다른 앱” 캡처가 보편적이지 않습니다.
  • 2대의 기기로 테스트: Galaxy S10(2019)과 iPad Pro 3세대(2018)에서의 결과입니다. 다른 기기에서는 성능이 달라질 수 있습니다.
  • 정확도 평가 미실시: ASR 전사 정확도(WER)와 번역 품질은 이번 릴리스에서 정식 측정하지 않았습니다.

향후 연구

  • 엔드투엔드 지연 분석: ASR, 번역, TTS 각 단계를 개별 측정하고 전체 파이프라인 지연의 백분위수 보고.
  • 품질 평가: ASR WER 및 주요 언어 쌍에 대한 번역 품질 지표와 사람 검증 추가.
  • 기기 범위 확대: 2018~2026년 하드웨어 전반의 스케일링을 이해하기 위한 미드레인지 및 신형 NPU 탑재 기기 벤치마크.
  • 백그라운드 안정성: 장시간 세션, 중단, 양 OS 플랫폼의 백그라운드 실행 정책 스트레스 테스트.
  • 전력 및 발열: 지속적인 번역 세션에서의 배터리 소모 및 발열 스로틀링 정량화.

결론

완전 오프라인 음성 번역은 현재의 모바일 하드웨어에서 충분히 실용적입니다. ASR 단계(SenseVoice Small)는 2019년 Galaxy S10과 2018년 iPad Pro 3세대에서 23~34 tok/s, RTF < 0.1을 달성합니다. 번역과 TTS는 플랫폼 네이티브 엔진(Apple Translation / Google ML Kit 및 시스템 TTS)을 사용하며 별도 벤치마크를 하지 않았습니다. 엔드투엔드 파이프라인 지연은 발화 길이와 이후 단계에 따라 달라집니다.

시스템 오디오 캡처 기능 덕분에 번역은 마이크 입력을 넘어 다른 오디오 소스로 확장되어, 영상 통화, 미디어, 다른 앱의 오디오를 클라우드 연결 없이 번역할 수 있습니다.

네트워크 접근이 불안정하거나 데이터 프라이버시가 최우선인 엣지 배포 시나리오에서, 이 아키텍처는 전체 음성 번역 파이프라인이 소비자 하드웨어에서 완전히 온디바이스로 배포될 수 있음을 입증합니다. 앱은 Apache 2.0으로 오픈소스이며 추가 모델 및 벤치마크 결과의 커뮤니티 기여를 환영합니다.

참고 자료

저장소:

ASR 모델:

추론 엔진:

  • sherpa-onnx — Next-gen Kaldi ONNX Runtime (온디바이스 음성 처리용)

번역:

이 기사 공유

VoicePing 무료로 시작하기

AI 번역으로 언어 장벽을 넘어보세요. 지금 무료로 시작하세요.

무료로 시작