반응형 TTS3 "3초면 충분하다" 알리바바, 목소리 복제·디자인 AI 'Qwen3' 전격 공개 경쟁 모델 대비 압도적 오류율 감소… 10개 국어 완벽 지원텍스트 묘사만으로 감정 섞인 가상 음성 제작 가능해져 알리바바 클라우드의 Qwen 팀은 2025년 12월 23일(현지시간), 단 3초의 오디오로 목소리를 복제하거나 텍스트 설명만으로 가상 음성을 만드는 새로운 AI 모델 2종을 출시했다. 이 모델들은 기존 오픈AI나 일레븐랩스의 솔루션을 능가하는 성능을 갖추고 알리바바 클라우드 API를 통해 전 세계 개발자들에게 제공된다. 음성 복제의 한계를 넘다: Qwen3-TTS-VC-Flash과거에는 특정인의 목소리를 자연스럽게 복제하기 위해 수 분에서 수 시간 분량의 고품질 녹음 데이터가 필요했다. 하지만 이번에 공개된 ‘Qwen3-TTS-VC-Flash’는 단 3초의 샘플만으로도 대상의 음색, 억.. 2025. 12. 24. 마이크로소프트, 최대 90분 길이 팟캐스트 제작 가능한 AI 모델 '바이브보이스' 공개 다중 화자 대화·감정 표현 구사... "자발적 노래 생성 능력까지 잠재"초저프레임 오디오 토크나이저 혁신, 긴 오디오 시퀀스 처리 효율 극대화 인공지능(AI) 기술팀 = 마이크로소프트(MS)가 팟캐스트와 같은 긴 형식의 다중 화자 대화 오디오를 텍스트로 생성하는 새로운 AI 모델 '바이브보이스(VibeVoice)'를 공개했다. 이 모델은 최대 90분 길이의 연속적인 음성 합성이 가능하며, 자연스러운 감정 표현과 화자 일관성 유지 능력을 통해 기존 텍스트-음성 변환(TTS) 기술의 한계를 뛰어넘었다는 평가를 받는다. 최근 팟캐스트, 오디오북 등 장문 오디오 콘텐츠 시장이 급성장하고 있으나, 기존의 TTS 모델은 대부분 짧은 문장이나 단일 화자 음성 생성에 초점을 맞추어 왔다. 여러 화자가 등장하는 긴 대화.. 2025. 9. 28. 단 3초만에 목소리 복제하는 'AI Voice Cloning', 자연스러운 음성 생성 혁신 이끈다 로봇 같은 AI 음성은 이제 그만! 실제 감정과 억양까지 담아내는 혁신적 기술 등장 프로덕트헌트에 최근 출시된 'AI Voice Cloning'이 음성 합성 기술의 새로운 지평을 열고 있습니다. 이 기술은 단 3초 만에 사용자의 목소리를 복제하여 감정과 억양까지 담아내는 초현실적인 음성을 생성합니다. 메리 클레이턴이 개발한 이 서비스는 지난 5월 10일 프로덕트헌트에 공개되어 180개의 추천을 받으며 큰 주목을 받고 있습니다. 기존 AI 음성 합성 기술들이 기계적인 느낌을 주는 것과 달리, 'AI Voice Cloning'은 톤과 피치를 실제와 같이 구현해 사용자들에게 놀라움을 선사하고 있습니다.https://aivoicecloning.io/ AI Voice Cloning - Realistic AI Vo.. 2025. 5. 11. 이전 1 다음 반응형