턴테이킹 한계 극복… 사람 같은 실시간 대화 구현
오픈 소스로 공개, 음성 인터페이스 혁신 예고

AI와 대화할 때 무전기처럼 한 사람씩 번갈아 말해야 했던 불편함이 사라진다. 엔비디아는 27일 사용자의 발화를 실시간으로 청취하며 동시에 답변을 생성하는 음성 AI 모델 ‘PersonaPlex’를 오픈 소스로 공개했다.
기존의 음성 AI는 사용자가 말을 멈출 때까지 기다린 뒤(End-of-turn detection) 처리하고 답변하는 ‘턴테이킹(Turn-taking)’ 방식을 썼다. 이로 인해 대화 중간에 끼어들거나(Barge-in), 맞장구를 치는 등 자연스러운 상호작용이 어려웠다.
PersonaPlex는 이 한계를 극복했다. 사용자가 말하는 도중에 질문을 하거나 화제를 바꿔도 AI가 이를 즉시 인지하고 반응한다. 엔비디아 측은 “사람 간의 대화처럼 겹치는 구간(Overlap)까지 자연스럽게 처리하는 최초의 모델”이라고 설명했다.
이 모델은 ‘하이브리드 프롬프트’ 시스템을 채택했다. 개발자는 텍스트 프롬프트로 AI의 성격(페르소나)을 설정하고, 오디오 프롬프트로 목소리 톤과 억양을 미세 조정할 수 있다. 이를 통해 상담원, 친구, 뉴스 앵커 등 다양한 역할에 맞는 최적의 목소리를 구현한다.
가장 큰 변화가 예상되는 곳은 고객 서비스(CS)와 통번역 시장이다. 고객이 말을 끝내기 전에 불만 사항을 파악해 대응하거나, 동시통역 수준의 빠른 번역 서비스 제공이 가능해진다. 또한 AI 가상 비서나 로봇과의 대화가 훨씬 자연스러워져, 독거노인 돌봄이나 교육용 AI의 품질도 획기적으로 개선될 전망이다.
엔비디아가 이 기술을 오픈 소스로 푼 만큼, 중소기업이나 스타트업들도 고품질 음성 서비스를 쉽게 개발할 수 있게 되어 음성 AI 생태계가 빠르게 확장될 것으로 보인다.
https://github.com/NVIDIA/personaplex
GitHub - NVIDIA/personaplex: PersonaPlex code.
PersonaPlex code. Contribute to NVIDIA/personaplex development by creating an account on GitHub.
github.com
- 관련 링크: The Decoder
'IT' 카테고리의 다른 글
| 챗GPT 안에서 파일 다운로드·외부 패키지 설치 된다 (0) | 2026.01.27 |
|---|---|
| 엔비디아 ‘Earth-2’, 구글 제쳤다… 기상 이변 몇 주 전 예측 (0) | 2026.01.27 |
| 앤스로픽 클로드, 슬랙·피그마 품었다… “대화 넘어 업무 허브로” (0) | 2026.01.27 |
| MS, 3나노 AI 칩 ‘Maia 200’ 공개… 엔비디아 의존도 낮춘다 (0) | 2026.01.27 |
| 코플랜드, AI 기업 ‘부에노’ 인수… 빌딩 솔루션 강화 (0) | 2026.01.25 |