경쟁 모델 대비 압도적 오류율 감소… 10개 국어 완벽 지원
텍스트 묘사만으로 감정 섞인 가상 음성 제작 가능해져

알리바바 클라우드의 Qwen 팀은 2025년 12월 23일(현지시간), 단 3초의 오디오로 목소리를 복제하거나 텍스트 설명만으로 가상 음성을 만드는 새로운 AI 모델 2종을 출시했다. 이 모델들은 기존 오픈AI나 일레븐랩스의 솔루션을 능가하는 성능을 갖추고 알리바바 클라우드 API를 통해 전 세계 개발자들에게 제공된다.
음성 복제의 한계를 넘다: Qwen3-TTS-VC-Flash
과거에는 특정인의 목소리를 자연스럽게 복제하기 위해 수 분에서 수 시간 분량의 고품질 녹음 데이터가 필요했다. 하지만 이번에 공개된 ‘Qwen3-TTS-VC-Flash’는 단 3초의 샘플만으로도 대상의 음색, 억양, 호흡을 포착해낸다. 특히 일레븐랩스(ElevenLabs)나 미니맥스(MiniMax) 등 기존 강자들보다 더 낮은 오류율을 기록하며 기술적 우위를 확보했다. 이 모델은 10개 언어를 지원하며 복합적인 문장 구조도 매끄럽게 소화한다.
상상 속 목소리를 현실로: Qwen3-TTS-VD-Flash
복제할 대상이 없는 경우에도 문제가 없다. ‘Qwen3-TTS-VD-Flash’ 모델은 사용자의 묘사만으로 목소리를 '디자인'한다. 사용자가 "빠른 속도로 상품을 판매하는 열정적인 쇼호스트의 바리톤 목소리"와 같이 상세하게 입력하면, AI는 그 감정과 템포를 정확히 반영한 음성을 생성한다. 이는 감정 표현이 제한적이었던 기존 TTS(Text-to-Speech)의 한계를 극복한 것으로 평가받는다.
Hugging Face에서 디자인 모델 과 클론 모델 의 데모를 체험해 볼 수 있습니다 .
허깅페이스 : https://huggingface.co/spaces/Qwen/Qwen3-TTS-Voice-Design
Qwen3 TTS Voice Design - a Hugging Face Space by Qwen
huggingface.co
허깅페이스 : https://huggingface.co/spaces/Qwen/Qwen-TTS-Clone-Demo
Qwen TTS Clone Demo - a Hugging Face Space by Qwen
huggingface.co
'IT' 카테고리의 다른 글
| OpenAI, ‘GPT-5.2-Codex’ 공개… 보안 전문가용 ‘빗장’ 푼다 (0) | 2025.12.20 |
|---|---|
| 구글, ‘제미나이 3’·‘픽셀 10’ 활용 팁 40선 공개… “일상의 AI 혁명” (0) | 2025.12.20 |
| OpenAI, ‘GPT-5.2’ 기습 출시… 구글 제미나이 3 꺾고 ‘왕좌 탈환’ (1) | 2025.12.12 |
| 구글, AI 에이전트 제작 플랫폼 ‘워크스페이스 스튜디오’ 공개… “제미나이 3로 업무 자동화” (0) | 2025.12.04 |
| 미스트랄 AI, 최신 모델 ‘미스트랄 3’ 전격 공개… “웹 브라우저에서 실행” (0) | 2025.12.03 |