반응형 텍스트음성변환2 마이크로소프트, 최대 90분 길이 팟캐스트 제작 가능한 AI 모델 '바이브보이스' 공개 다중 화자 대화·감정 표현 구사... "자발적 노래 생성 능력까지 잠재"초저프레임 오디오 토크나이저 혁신, 긴 오디오 시퀀스 처리 효율 극대화 인공지능(AI) 기술팀 = 마이크로소프트(MS)가 팟캐스트와 같은 긴 형식의 다중 화자 대화 오디오를 텍스트로 생성하는 새로운 AI 모델 '바이브보이스(VibeVoice)'를 공개했다. 이 모델은 최대 90분 길이의 연속적인 음성 합성이 가능하며, 자연스러운 감정 표현과 화자 일관성 유지 능력을 통해 기존 텍스트-음성 변환(TTS) 기술의 한계를 뛰어넘었다는 평가를 받는다. 최근 팟캐스트, 오디오북 등 장문 오디오 콘텐츠 시장이 급성장하고 있으나, 기존의 TTS 모델은 대부분 짧은 문장이나 단일 화자 음성 생성에 초점을 맞추어 왔다. 여러 화자가 등장하는 긴 대화.. 2025. 9. 28. Python으로 NotebookLM 스타일 팟캐스트를 프로그래밍 방식으로 생성하는 방법 NotebookLM 스타일의 팟캐스트는 Google의 혁신적인 AI 도구에서 영감을 받아 PDF와 같은 텍스트 기반 콘텐츠를 대화형 오디오 형식으로 변환합니다. 이러한 팟캐스트는 두 명의 가상 호스트 간의 생동감 있는 대화를 시뮬레이션하여 복잡하거나 방대한 자료를 더 쉽게 접근하고 즐길 수 있도록 만듭니다. 현재 Google의 NotebookLM은 프로그래밍 방식으로 팟캐스트를 생성할 수 있는 API를 제공하지 않지만, Play.ht와 같은 대체 도구를 사용하면 효율적으로 이러한 팟캐스트를 생성할 수 있습니다. 이 가이드는 Python을 사용하여 50줄 미만의 코드로 NotebookLM 스타일의 팟캐스트를 생성하는 방법을 요약하며, Play.ht와 같은 API를 활용합니다. 팟캐스트 생성 주요 단계API.. 2024. 11. 23. 이전 1 다음 반응형