반응형 팟캐스트AI1 마이크로소프트, 최대 90분 길이 팟캐스트 제작 가능한 AI 모델 '바이브보이스' 공개 다중 화자 대화·감정 표현 구사... "자발적 노래 생성 능력까지 잠재"초저프레임 오디오 토크나이저 혁신, 긴 오디오 시퀀스 처리 효율 극대화 인공지능(AI) 기술팀 = 마이크로소프트(MS)가 팟캐스트와 같은 긴 형식의 다중 화자 대화 오디오를 텍스트로 생성하는 새로운 AI 모델 '바이브보이스(VibeVoice)'를 공개했다. 이 모델은 최대 90분 길이의 연속적인 음성 합성이 가능하며, 자연스러운 감정 표현과 화자 일관성 유지 능력을 통해 기존 텍스트-음성 변환(TTS) 기술의 한계를 뛰어넘었다는 평가를 받는다. 최근 팟캐스트, 오디오북 등 장문 오디오 콘텐츠 시장이 급성장하고 있으나, 기존의 TTS 모델은 대부분 짧은 문장이나 단일 화자 음성 생성에 초점을 맞추어 왔다. 여러 화자가 등장하는 긴 대화.. 2025. 9. 28. 이전 1 다음 반응형