본문 바로가기
IT

"3초면 충분하다" 알리바바, 목소리 복제·디자인 AI 'Qwen3' 전격 공개

by 카메라의눈 2025. 12. 24.
반응형
경쟁 모델 대비 압도적 오류율 감소… 10개 국어 완벽 지원
텍스트 묘사만으로 감정 섞인 가상 음성 제작 가능해져

"3초면 충분하다" 알리바바, 목소리 복제·디자인 AI 'Qwen3' 전격 공개

 

알리바바 클라우드의 Qwen 팀은 2025년 12월 23일(현지시간), 단 3초의 오디오로 목소리를 복제하거나 텍스트 설명만으로 가상 음성을 만드는 새로운 AI 모델 2종을 출시했다. 이 모델들은 기존 오픈AI나 일레븐랩스의 솔루션을 능가하는 성능을 갖추고 알리바바 클라우드 API를 통해 전 세계 개발자들에게 제공된다.

 

 

 

 

 

음성 복제의 한계를 넘다: Qwen3-TTS-VC-Flash

과거에는 특정인의 목소리를 자연스럽게 복제하기 위해 수 분에서 수 시간 분량의 고품질 녹음 데이터가 필요했다. 하지만 이번에 공개된 ‘Qwen3-TTS-VC-Flash’는 단 3초의 샘플만으로도 대상의 음색, 억양, 호흡을 포착해낸다. 특히 일레븐랩스(ElevenLabs)나 미니맥스(MiniMax) 등 기존 강자들보다 더 낮은 오류율을 기록하며 기술적 우위를 확보했다. 이 모델은 10개 언어를 지원하며 복합적인 문장 구조도 매끄럽게 소화한다.

반응형

상상 속 목소리를 현실로: Qwen3-TTS-VD-Flash

복제할 대상이 없는 경우에도 문제가 없다. ‘Qwen3-TTS-VD-Flash’ 모델은 사용자의 묘사만으로 목소리를 '디자인'한다. 사용자가 "빠른 속도로 상품을 판매하는 열정적인 쇼호스트의 바리톤 목소리"와 같이 상세하게 입력하면, AI는 그 감정과 템포를 정확히 반영한 음성을 생성한다. 이는 감정 표현이 제한적이었던 기존 TTS(Text-to-Speech)의 한계를 극복한 것으로 평가받는다.


Hugging Face에서 디자인 모델 과 클론 모델 의 데모를 체험해 볼 수 있습니다 .

 

허깅페이스 : https://huggingface.co/spaces/Qwen/Qwen3-TTS-Voice-Design

 

Qwen3 TTS Voice Design - a Hugging Face Space by Qwen

 

huggingface.co

허깅페이스 : https://huggingface.co/spaces/Qwen/Qwen-TTS-Clone-Demo

 

Qwen TTS Clone Demo - a Hugging Face Space by Qwen

 

huggingface.co

 

반응형