인간과 유사한 '맥락적 이해'로 자연스러운 기술 상호작용 가능
자동차, 레스토랑, 공장 등 다양한 산업 분야 적용 기대
음성 AI 분야의 선두 주자인 SoundHound AI가 시각적 요소를 통합한 'Vision AI'를 출시하며 인공지능 기술의 새로운 지평을 열었다. 이번에 공개된 시스템은 카메라의 실시간 영상과 회사의 음성 기술을 결합하여, 사용자가 보고 듣는 것을 동시에 이해함으로써 더욱 자연스럽고 직관적인 상호작용을 가능하게 한다.
SoundHound AI의 Vision AI는 단순한 다중 모드(multi-modal)를 넘어, 인간의 행동 방식을 모방하는 '맥락적 이해'에 초점을 맞추고 있다. 예를 들어, 운전 중 "저기 저 건물 뭐야?"라고 물으면, 휴대폰을 꺼낼 필요 없이 AI가 시각적으로 건물을 인식하고 즉각적인 답변을 제공한다. 이는 기존의 음성 비서로는 불가능했던, 사용자의 진정한 의도를 파악하는 혁신적인 방식이다.
Vision AI의 기술적 핵심은 오디오와 비디오 요소의 완벽한 동기화에 있다. SoundHound AI 엔지니어링 부사장인 프라나브 싱은 "모든 프레임, 모든 발화, 모든 의도가 동일한 생태계 내에서 해석되어 더 빠르고 자연스러운 사용자 경험을 보장한다"고 설명했다. 이를 통해 스마트 글래스를 착용한 정비공이 공구를 내려놓지 않고도 시각적, 청각적 안내를 받는 등 다양한 실제 적용 분야에서 기술적 편의성을 높일 수 있을 것으로 기대된다.
기업들은 이 기술 도입을 통해 더 빠른 서비스와 적은 실수, 그리고 더 높은 고객 만족도를 기대할 수 있다. SoundHound AI의 CEO인 Keyvan Mohajer는 "AI의 미래는 단순히 다중 모드가 아니며, 깊이 통합되고 반응성이 뛰어나 실제 세계에 영향을 미치도록 구축된다"며 Vision AI에 대한 자신감을 드러냈다.
SoundHound는 Vision AI 출시와 더불어, 시스템의 '두뇌' 기능인 'Amelia 7.1' 업데이트를 통해 AI 에이전트의 속도와 정확도를 향상시켰다. 이처럼 SoundHound는 시각과 청각을 결합하여 AI와의 상호작용이 마치 다른 사람과 대화하는 것처럼 쉽고 직관적인 세상을 만드는 것을 목표로 하고 있다.
원본링크 : https://www.artificialintelligence-news.com/news/soundhound-is-giving-its-ai-the-power-of-sight/
SoundHound is giving its AI the power of sight
SoundHound, already a major player in voice assistants, is now giving its technology a pair of eyes with the launch of Vision AI.
www.artificialintelligence-news.com
'IT' 카테고리의 다른 글
삼성전자, 세계 최초 '마이크로 RGB TV' 출시... 프리미엄 TV 시장 공략 (1) | 2025.08.12 |
---|---|
NCSOFT, 2025년 2분기 실적 발표… 매출 3,824억 원 기록 (4) | 2025.08.12 |
TSMC 기술 유출 사건, 일본으로 이어지는 경로 발견…칩 전쟁 새로운 국면 (2) | 2025.08.12 |
삼성전자, 미국 500억 달러 반도체 투자 확대…TSMC 압박 본격화 (1) | 2025.08.12 |
Nvidia·AMD, 중국 AI 칩 수출 수익 15%를 미국 정부에 분배 (1) | 2025.08.11 |