본문 바로가기
IT

마이크로소프트, 최대 90분 길이 팟캐스트 제작 가능한 AI 모델 '바이브보이스' 공개

by 카메라의눈 2025. 9. 28.
반응형
다중 화자 대화·감정 표현 구사... "자발적 노래 생성 능력까지 잠재"
초저프레임 오디오 토크나이저 혁신, 긴 오디오 시퀀스 처리 효율 극대화

바이브보이스
바이브보이스

 

인공지능(AI) 기술팀 = 마이크로소프트(MS)가 팟캐스트와 같은 긴 형식의 다중 화자 대화 오디오를 텍스트로 생성하는 새로운 AI 모델 '바이브보이스(VibeVoice)'를 공개했다. 이 모델은 최대 90분 길이의 연속적인 음성 합성이 가능하며, 자연스러운 감정 표현과 화자 일관성 유지 능력을 통해 기존 텍스트-음성 변환(TTS) 기술의 한계를 뛰어넘었다는 평가를 받는다.

 

최근 팟캐스트, 오디오북 등 장문 오디오 콘텐츠 시장이 급성장하고 있으나, 기존의 TTS 모델은 대부분 짧은 문장이나 단일 화자 음성 생성에 초점을 맞추어 왔다. 여러 화자가 등장하는 긴 대화 오디오의 경우, ▲화자 일관성 유지 ▲자연스러운 턴 테이킹(turn-taking) ▲감정 변화 표현 등에서 어려움을 겪어왔다. 특히 메모리 문제로 인해 10분 내외의 짧은 길이만 처리할 수 있는 것이 일반적이었다.

 

마이크로소프트 리서치팀은 바이브보이스를 통해 이러한 기술적 병목 현상을 해결했다고 밝혔다. 핵심은 혁신적인 초저프레임 오디오 토크나이저를 도입한 것이다. 이 토크나이저는 오디오 데이터를 기존 방식보다 최대 80배 효율적인 초당 7.5Hz의 초저프레임 레이트로 압축 처리함으로써, 오디오 품질을 유지하면서도 긴 오디오 시퀀스의 계산 효율성을 극대화했다.

 

 

바이브보이스는 이 토크나이저와 함께 대규모 언어 모델(LLM)인 Qwen2.5 기반의 '다음 토큰 확산 프레임워크'를 사용한다. LLM은 텍스트의 맥락과 대화 흐름, 감정 상태를 파악하는 '감독' 역할을, 확산 헤드(Diffusion Head)는 고품질의 음향 디테일을 생성하는 '배우' 역할을 분담한다.

 

주요 기능으로는 ▲최대 90분 연속 오디오 생성 ▲최대 4명의 화자 지원 ▲영어 및 중국어 기반의 교차 언어 합성(Cross-Lingual Synthesis) 지원 등이 있다. 특히, 데모 샘플 중에는 대본에 없는 자발적인 노래(Spontaneous Singing)를 생성하는 능력까지 보여, 모델이 텍스트의 운율적 구조를 깊이 이해하는 '창발적 능력'을 내포하고 있을 가능성을 시사했다.

반응형

바이브보이스는 구글의 '제미나이 2.5 프로 TTS'나 '일레븐랩스 V3' 등 경쟁 모델과의 비교 평가에서 자연스러움, 현실성, 표현력 면에서 일관되게 더 높은 점수를 받았다. 70억 개 파라미터 모델(VibeVoice-7B)은 모든 평가 항목에서 가장 우수한 점수를 기록했다.

'이 모델은 TTS 분야에서 상당한 도약이며, 특히 장문 대화 오디오 생성의 상업적 활용 가능성을 열었다'(최지훈, 음성 AI 연구 교수, KAIST)고 전문가들은 분석했다.

 

그러나 마이크로소프트는 고품질 합성 음성의 잠재적 악용 위험에 대해서도 경고했다. 모든 바이브보이스 생성 오디오 파일에는 AI 생성 여부를 식별할 수 있는 가청 표시(Audible Indicator)와 디지털 워터마크(Digital Watermark)가 포함되어 있다. MS는 이 모델을 현재 연구 목적으로만 공개했으며, 상업적 사용을 제한하고 있다.

 


출처 및 상세 정보 링크

반응형