반응형 음성합성5 "3초면 충분하다" 알리바바, 목소리 복제·디자인 AI 'Qwen3' 전격 공개 경쟁 모델 대비 압도적 오류율 감소… 10개 국어 완벽 지원텍스트 묘사만으로 감정 섞인 가상 음성 제작 가능해져 알리바바 클라우드의 Qwen 팀은 2025년 12월 23일(현지시간), 단 3초의 오디오로 목소리를 복제하거나 텍스트 설명만으로 가상 음성을 만드는 새로운 AI 모델 2종을 출시했다. 이 모델들은 기존 오픈AI나 일레븐랩스의 솔루션을 능가하는 성능을 갖추고 알리바바 클라우드 API를 통해 전 세계 개발자들에게 제공된다. 음성 복제의 한계를 넘다: Qwen3-TTS-VC-Flash과거에는 특정인의 목소리를 자연스럽게 복제하기 위해 수 분에서 수 시간 분량의 고품질 녹음 데이터가 필요했다. 하지만 이번에 공개된 ‘Qwen3-TTS-VC-Flash’는 단 3초의 샘플만으로도 대상의 음색, 억.. 2025. 12. 24. 일레븐랩스, 'Eleven v3'에 오디오 태그 기능 도입…AI 음성 제어 강화 음성 속삭임·웃음 등 세밀한 제어 가능…생성형 AI 음성 품질 향상텍스트 기반 입력 넘어 미묘한 감정 표현으로 활용성 확대 인공지능(AI) 음성 기술 스타트업 일레븐랩스(ElevenLabs)가 자사의 최신 AI 음성 모델 'Eleven v3'에 새로운 '오디오 태그(Audio Tags)' 기능을 도입하였다. 본 기능은 개발자들이 AI 생성 음성의 속삭임, 웃음, 특정한 감정 표현 등을 텍스트 명령을 통해 더욱 정교하게 제어할 수 있도록 지원하며, 이를 통해 생성형 AI 음성의 품질과 활용성을 한 단계 더 끌어올릴 것으로 기대된다.'오디오 태그' 도입으로 AI 음성 표현력 극대화일레븐랩스의 'Eleven v3'는 이미 속삭임, 웃음 등 인간의 자연스러운 감정 표현을 구현하는 능력을 인정받은 바 있다. 이번.. 2025. 6. 17. 일레븐랩스, 'Eleven v3' 공개…AI 음성, 인간 감성 표현 시대 개막 AI 음성 모델, 속삭임·웃음 등 자연스러운 감정 표현 가능해져30개 언어 지원하며 게임·콘텐츠 등 AI 음성 활용 범위 확대 인공지능(AI) 음성 기술 스타트업 일레븐랩스(ElevenLabs)가 속삭임, 웃음 등 인간의 미묘한 감정을 자연스럽게 표현할 수 있는 최신 AI 음성 모델 'Eleven v3'를 공개했습니다. 이는 AI 음성 기술이 단순히 텍스트를 소리로 변환하는 단계를 넘어, 실제 인간의 목소리와 감성적 표현에 근접하며 AI 음성 상호작용의 새로운 지평을 열었다는 평가를 받고 있습니다. 'Eleven v3', 인간의 미묘한 감성까지 구현일레븐랩스가 새롭게 선보인 'Eleven v3'는 기존 AI 음성 모델의 한계를 뛰어넘어, 더욱 자연스럽고 표현력이 풍부한 음성 생성을 가능하게 합니다. 이 .. 2025. 6. 7. 단 3초만에 목소리 복제하는 'AI Voice Cloning', 자연스러운 음성 생성 혁신 이끈다 로봇 같은 AI 음성은 이제 그만! 실제 감정과 억양까지 담아내는 혁신적 기술 등장 프로덕트헌트에 최근 출시된 'AI Voice Cloning'이 음성 합성 기술의 새로운 지평을 열고 있습니다. 이 기술은 단 3초 만에 사용자의 목소리를 복제하여 감정과 억양까지 담아내는 초현실적인 음성을 생성합니다. 메리 클레이턴이 개발한 이 서비스는 지난 5월 10일 프로덕트헌트에 공개되어 180개의 추천을 받으며 큰 주목을 받고 있습니다. 기존 AI 음성 합성 기술들이 기계적인 느낌을 주는 것과 달리, 'AI Voice Cloning'은 톤과 피치를 실제와 같이 구현해 사용자들에게 놀라움을 선사하고 있습니다.https://aivoicecloning.io/ AI Voice Cloning - Realistic AI Vo.. 2025. 5. 11. OpenAI, 차세대 음성 AI 모델 '위스퍼 3'와 '보이스 엔진' 공개 "99% 정확도의 위스퍼 3, 실시간 음성 인식의 새 지평 열어""맞춤형 음성 생성 가능한 '보이스 엔진' 상용화 시동" OpenAI가 혁신적인 음성 AI 기술의 새 장을 열었다. 향상된 음성 인식 모델 '위스퍼 3(Whisper 3)'와 음성 합성 시스템 '보이스 엔진(Voice Engine)'을 발표하며 음성 AI 시장의 판도 변화를 예고했다. 위스퍼 3, 인간 수준의 음성 인식 달성위스퍼 3는 기존 모델 대비 대폭 개선된 성능을 자랑한다. 영어 음성 인식에서 99%의 정확도를 달성했으며, 다양한 언어와 악센트에 대한 이해도도 크게 향상됐다.주요 특징:실시간 음성 인식 지원다중 화자 구분 기능배경 소음에 강한 내구성80개 이상 언어 지원"위스퍼 3는 인간의 음성 인식 능력에 근접한 성능을 보여주고 있.. 2025. 3. 23. 이전 1 다음 반응형