Canopy AI가 최첨단 오픈소스 텍스트-음성 변환(TTS) 시스템인 Orpheus-TTS를 공개했다. Llama-3b 대규모 언어 모델(LLM)을 기반으로 개발된 이 시스템은 인간과 유사한 자연스러운 음성 합성과 제로샷 음성 복제 등 LLM의 새로운 가능성을 보여준다.
제로샷 음성 복제, 감정 제어까지… LLM 기반 TTS의 놀라운 능력
Canopy AI가 발표한 Orpheus-TTS는 기존 폐쇄 소스 TTS 모델을 능가하는 성능을 목표로 개발되었다. 주요 특징은 다음과 같다:
- 인간과 유사한 음성: 자연스러운 억양, 감정, 리듬을 구현하여 사람처럼 들리는 음성을 생성한다.
- 제로샷 음성 복제: 별도의 파인튜닝 과정 없이 새로운 목소리를 즉시 복제할 수 있다.
- 감정 및 억양 제어: 웃음(
<laugh>
), 한숨(<sigh>
) 등 간단한 태그를 사용하여 음성의 감정과 특징을 조절할 수 있다. - 낮은 지연 시간: 실시간 스트리밍 환경에서 약 200ms의 낮은 지연 시간을 제공하며, 입력 스트리밍 기술을 활용하면 100ms까지 단축 가능하다.
이러한 기능들은 LLM을 음성 합성에 활용했을 때 나타나는 잠재력을 보여주는 사례로 평가받는다.
영어 및 다국어 모델 연구 프리뷰 공개… 파인튜닝 가이드로 쉬운 확장
Canopy AI는 현재 두 가지 영어 모델을 제공한다:
- Finetuned Prod: 일상적인 TTS 애플리케이션에 최적화된 파인튜닝 모델
- Pretrained: 10만 시간 이상의 영어 음성 데이터로 학습된 기본 모델
또한, 2025년 4월 업데이트를 통해 7개 언어 쌍으로 구성된 다국어 모델 패밀리를 연구 프리뷰 형태로 공개했다. 개발자들은 함께 제공되는 데이터 처리 스크립트와 샘플 데이터셋, 학습 가이드를 통해 기존 언어 모델의 성능을 개선하거나 새로운 언어 모델을 비교적 쉽게 만들 수 있다.
Orpheus-TTS는 orpheus-speech
파이썬 패키지를 통해 쉽게 사용할 수 있으며, Colab 노트북 예제와 실시간 스트리밍 구현 코드도 제공된다. 파인튜닝 과정 역시 Hugging Face 데이터셋 형식을 따르며, 약 50개의 오디오 샘플만으로도 고품질 결과를 얻을 수 있도록 간소화되었다 (최상의 결과를 위해서는 샘플 300개 이상 권장).
#OrpheusTTS #CanopyAI #TTS #TextToSpeech #LLM #Llama3 #오픈소스 #음성합성 #AI #제로샷클로닝
'IT' 카테고리의 다른 글
Microsoft Copilot Studio, UI 자동화를 위한 '컴퓨터 사용' 기능 발표 (0) | 2025.04.21 |
---|---|
OpenAI, Windsurf 인수 협상 중 - 30억 달러 규모 (0) | 2025.04.21 |
구글, 제미나이 탑재 스마트글래스 시연… '증강 지능' 시대 예고 (0) | 2025.04.19 |
ChatGPT, 이제 '기억'으로 웹 검색도 맞춤 설정 (0) | 2025.04.19 |
나만의 AI 이메일 비서 만들기: GPT 4.1과 N8N 활용 가이드 (1) | 2025.04.18 |