본문 바로가기
IT

SoundHound AI, 시각과 청각 결합한 'Vision AI' 출시

by 카메라의눈 2025. 8. 12.
반응형
인간과 유사한 '맥락적 이해'로 자연스러운 기술 상호작용 가능
자동차, 레스토랑, 공장 등 다양한 산업 분야 적용 기대

SoundHound AI
출처 : artificialintelligence-news

 

음성 AI 분야의 선두 주자인 SoundHound AI가 시각적 요소를 통합한 'Vision AI'를 출시하며 인공지능 기술의 새로운 지평을 열었다. 이번에 공개된 시스템은 카메라의 실시간 영상과 회사의 음성 기술을 결합하여, 사용자가 보고 듣는 것을 동시에 이해함으로써 더욱 자연스럽고 직관적인 상호작용을 가능하게 한다.

 

SoundHound AI의 Vision AI는 단순한 다중 모드(multi-modal)를 넘어, 인간의 행동 방식을 모방하는 '맥락적 이해'에 초점을 맞추고 있다. 예를 들어, 운전 중 "저기 저 건물 뭐야?"라고 물으면, 휴대폰을 꺼낼 필요 없이 AI가 시각적으로 건물을 인식하고 즉각적인 답변을 제공한다. 이는 기존의 음성 비서로는 불가능했던, 사용자의 진정한 의도를 파악하는 혁신적인 방식이다.

 

Vision AI의 기술적 핵심은 오디오와 비디오 요소의 완벽한 동기화에 있다. SoundHound AI 엔지니어링 부사장인 프라나브 싱은 "모든 프레임, 모든 발화, 모든 의도가 동일한 생태계 내에서 해석되어 더 빠르고 자연스러운 사용자 경험을 보장한다"고 설명했다. 이를 통해 스마트 글래스를 착용한 정비공이 공구를 내려놓지 않고도 시각적, 청각적 안내를 받는 등 다양한 실제 적용 분야에서 기술적 편의성을 높일 수 있을 것으로 기대된다.

 

 

기업들은 이 기술 도입을 통해 더 빠른 서비스와 적은 실수, 그리고 더 높은 고객 만족도를 기대할 수 있다. SoundHound AI의 CEO인 Keyvan Mohajer는 "AI의 미래는 단순히 다중 모드가 아니며, 깊이 통합되고 반응성이 뛰어나 실제 세계에 영향을 미치도록 구축된다"며 Vision AI에 대한 자신감을 드러냈다.

 

SoundHound는 Vision AI 출시와 더불어, 시스템의 '두뇌' 기능인 'Amelia 7.1' 업데이트를 통해 AI 에이전트의 속도와 정확도를 향상시켰다. 이처럼 SoundHound는 시각과 청각을 결합하여 AI와의 상호작용이 마치 다른 사람과 대화하는 것처럼 쉽고 직관적인 세상을 만드는 것을 목표로 하고 있다.

 

원본링크 : https://www.artificialintelligence-news.com/news/soundhound-is-giving-its-ai-the-power-of-sight/

 

SoundHound is giving its AI the power of sight

SoundHound, already a major player in voice assistants, is now giving its technology a pair of eyes with the launch of Vision AI.

www.artificialintelligence-news.com

반응형