본문 바로가기
IT

대학생 2명이 개발한 AI 음성 모델 'Dia', 구글의 NotebookLM에 도전장

by 카메라의눈 2025. 4. 23.
반응형
AI 경험 부족에도 불구하고 3개월 만에 개발 성공
오픈 액세스 모델로 Hugging Face와 GitHub에서 이용 가능

Dia
Dia

 

두 명의 대학생이 인공지능 분야에 깊은 배경 지식 없이도 구글의 NotebookLM과 유사한 팟캐스트 스타일 오디오 클립을 생성할 수 있는 AI 모델을 개발했다. 이들은 지난 4월 22일 Nari Labs를 통해 'Dia'라는 이름의 모델을 공개했으며, 사용자에게 음성 생성에 대한 더 많은 제어권과 "스크립트의 자유"를 제공하는 것을 목표로 했다.

Nari Labs의 공동 창업자인 토비 김은 "3개월 전에 음성 AI 탐색을 시작했다"며 구글의 TPU 리서치 클라우드 프로그램을 활용해 모델을 훈련시켰다고 밝혔다. 16억 개의 매개변수를 가진 Dia는 주어진 스크립트에서 대화를 생성하고, 화자의 톤을 사용자 지정하며, 기침, 웃음 등 비언어적 요소를 통합할 수 있다.

 

Dia는 AI 개발 플랫폼인 Hugging FaceGitHub에서 접근 가능하며, 최소 10GB VRAM이 장착된 대부분의 현대적 PC에서 작동할 수 있다. 특정 스타일 설명이 없으면 무작위 음성을 생성하지만, 개인의 목소리를 복제하는 기능도 갖추고 있다.

 

GitHub - nari-labs/dia: A TTS model capable of generating ultra-realistic dialogue in one pass.

A TTS model capable of generating ultra-realistic dialogue in one pass. - nari-labs/dia

github.com

 

nari-labs/Dia-1.6B · Hugging Face

Dia is a 1.6B parameter text to speech model created by Nari Labs. Dia directly generates highly realistic dialogue from a transcript. You can condition the output on audio, enabling emotion and tone control. The model can also produce nonverbal communicat

huggingface.co

 

TechCrunch의 간략한 평가에 따르면, Dia는 어떤 주제에 대해서도 양방향 대화를 생성하는 데 문제없이 훌륭한 성능을 보였다. 음성의 품질은 다른 기존 도구들과 경쟁력이 있으며, 음성 복제 기능은 기자가 접한 것 중 가장 쉬운 것 중 하나로 평가받았다.

 

특징 내용
모델명 Dia
개발사 Nari Labs
매개변수 수 16억 개
접근 플랫폼 Hugging Face, GitHub
필요 사양 최소 10GB VRAM 장착 PC
주요 기능 대화 생성, 톤 사용자 지정, 비언어적 요소 통합, 음성 복제

 

"우리는 NotebookLM에서 영감을 받아 사용자들에게 음성 생성에 대한 더 많은 제어권과 스크립트의 자유를 제공하는 모델을 개발하고자 했습니다"라고 토비 김은 설명했다.

 

그러나 많은 음성 생성 도구와 마찬가지로 Dia는 강력한 안전장치가 부족하다. 허위 정보나 기만적인 녹음을 제작하는 것이 놀라울 정도로 간단할 수 있다. Nari는 Dia의 프로젝트 페이지에서 모델을 사칭, 기만 또는 기타 불법 활동에 사용하지 말 것을 권고하지만, 오용에 대해 "책임이 없다"고 명시하고 있다.

반응형

향후 Nari는 Dia와 미래의 더 발전된 모델을 기반으로 사회적 측면이 있는 합성 음성을 구축하는 것을 목표로 하고 있다. 또한 Dia에 대한 기술 보고서를 발표하고 영어 이외의 언어로 모델의 기능을 확장할 계획이다.

 

합성 음성 기술에 대한 수요는 광범위하고 확장되고 있다. PitchBook에 따르면 작년 음성 AI에 중점을 둔 스타트업은 3억 9,800만 달러 이상의 벤처 캐피털을 확보했다. Dia의 개발은 이 분야의 혁신이 대기업뿐만 아니라 소규모 개발자들에 의해서도 이루어질 수 있음을 보여준다. 더 자세한 정보는 Hugging Face와 GitHub 플랫폼에서 'Dia' 모델을 검색하여 확인할 수 있다.

 

반응형