반응형 음성ai6 SoundHound AI, 시각과 청각 결합한 'Vision AI' 출시 인간과 유사한 '맥락적 이해'로 자연스러운 기술 상호작용 가능자동차, 레스토랑, 공장 등 다양한 산업 분야 적용 기대 음성 AI 분야의 선두 주자인 SoundHound AI가 시각적 요소를 통합한 'Vision AI'를 출시하며 인공지능 기술의 새로운 지평을 열었다. 이번에 공개된 시스템은 카메라의 실시간 영상과 회사의 음성 기술을 결합하여, 사용자가 보고 듣는 것을 동시에 이해함으로써 더욱 자연스럽고 직관적인 상호작용을 가능하게 한다. SoundHound AI의 Vision AI는 단순한 다중 모드(multi-modal)를 넘어, 인간의 행동 방식을 모방하는 '맥락적 이해'에 초점을 맞추고 있다. 예를 들어, 운전 중 "저기 저 건물 뭐야?"라고 물으면, 휴대폰을 꺼낼 필요 없이 AI가 시각적으로 건물.. 2025. 8. 12. 메타, 오디오 AI 스타트업 '웨이브폼즈' 인수 인간의 감정을 인식하는 AI 기술 확보… 멀티모달 기능 강화 기대새로운 '슈퍼인텔리전스 랩' 주축으로 라마 4.5 등 차세대 모델 개발 소셜 미디어 기업 메타(Meta)가 오디오 인공지능(AI) 스타트업 '웨이브폼즈(Waveforms)'를 인수하며 AI 기술 경쟁에 박차를 가하고 있다. 이번 인수는 메타의 차세대 AI 모델인 '라마 4.5(Llama 4.5)' 개발을 가속화하기 위한 전략적 행보로 풀이되며, 특히 인간의 음성에서 감정을 인식하고 모방하는 웨이브폼즈의 독보적인 기술을 활용할 것으로 예상된다. 메타는 최근 AI 조직을 '슈퍼인텔리전스 랩(Superintelligence Labs, MSL)'으로 재편하고, 그 산하에 'TBD 랩'이라는 특별 팀을 신설해 라마 4.5를 비롯한 차세대 모델 개발을.. 2025. 8. 9. 일레븐랩스, AI 음성 비서 '11ai' 출시…디지털 워크플로우 통합 음성 기반 AI 비서, 'MCP' 프로토콜로 다양한 앱과 연동 가능생산성 향상 기대…AI 기술 활용 범위 확장 인공지능(AI) 음성 기술 전문 기업 일레븐랩스(ElevenLabs)가 음성으로 디지털 워크플로우에 직접 참여할 수 있는 새로운 AI 음성 비서 '11ai'를 출시했습니다. 이번에 공개된 알파(Alpha) 버전은 음성 우선(Voice-first) 기술과 API 통합의 잠재력을 보여주는 데 중점을 두고 있으며, 향후 AI 비서 시장에 새로운 변화를 가져올 것으로 전망됩니다.'11ai', 음성 명령으로 디지털 작업 수행'11ai'는 웹 인터페이스(11.ai/app/eleven)를 통해 사용자의 음성 명령을 받아 다양한 디지털 작업을 수행할 수 있도록 설계되었습니다. 예를 들어, 사용자가 특정 지시를.. 2025. 6. 25. 앤스로픽 클로드, 음성 기능에 일레븐랩스 기술 채택 인공지능(AI) 스타트업 앤스로픽(Anthropic)의 대규모 언어 모델(LLM) 클로드(Claude)가 음성 기능 구현을 위해 자체 개발 모델 대신 음성 AI 전문 기업 일레븐랩스(ElevenLabs)의 기술을 채택한 것으로 알려지면서, AI 업계의 협업과 전문화 추세가 더욱 가속화될 것이라는 분석이 나오고 있습니다. 클로드, 음성 기능 강화 위해 '일레븐랩스'와 손잡다앤스로픽은 클로드의 음성 상호작용 기능을 강화하기 위해 일레븐랩스의 첨단 음성 합성 기술을 통합했습니다. 일레븐랩스는 자연스럽고 감성적인 음성 생성 능력으로 잘 알려진 기업으로, 그들의 기술을 통해 클로드는 더욱 풍부하고 인간적인 음성 대화 경험을 제공할 수 있게 될 것입니다. 이러한 결정은 앤스로픽이 LLM 개발이라는 핵심 역량에 집중.. 2025. 6. 1. 대학생 2명이 개발한 AI 음성 모델 'Dia', 구글의 NotebookLM에 도전장 AI 경험 부족에도 불구하고 3개월 만에 개발 성공오픈 액세스 모델로 Hugging Face와 GitHub에서 이용 가능 두 명의 대학생이 인공지능 분야에 깊은 배경 지식 없이도 구글의 NotebookLM과 유사한 팟캐스트 스타일 오디오 클립을 생성할 수 있는 AI 모델을 개발했다. 이들은 지난 4월 22일 Nari Labs를 통해 'Dia'라는 이름의 모델을 공개했으며, 사용자에게 음성 생성에 대한 더 많은 제어권과 "스크립트의 자유"를 제공하는 것을 목표로 했다.Nari Labs의 공동 창업자인 토비 김은 "3개월 전에 음성 AI 탐색을 시작했다"며 구글의 TPU 리서치 클라우드 프로그램을 활용해 모델을 훈련시켰다고 밝혔다. 16억 개의 매개변수를 가진 Dia는 주어진 스크립트에서 대화를 생성하고, .. 2025. 4. 23. OpenAI, 차세대 음성 AI 모델 '위스퍼 3'와 '보이스 엔진' 공개 "99% 정확도의 위스퍼 3, 실시간 음성 인식의 새 지평 열어""맞춤형 음성 생성 가능한 '보이스 엔진' 상용화 시동" OpenAI가 혁신적인 음성 AI 기술의 새 장을 열었다. 향상된 음성 인식 모델 '위스퍼 3(Whisper 3)'와 음성 합성 시스템 '보이스 엔진(Voice Engine)'을 발표하며 음성 AI 시장의 판도 변화를 예고했다. 위스퍼 3, 인간 수준의 음성 인식 달성위스퍼 3는 기존 모델 대비 대폭 개선된 성능을 자랑한다. 영어 음성 인식에서 99%의 정확도를 달성했으며, 다양한 언어와 악센트에 대한 이해도도 크게 향상됐다.주요 특징:실시간 음성 인식 지원다중 화자 구분 기능배경 소음에 강한 내구성80개 이상 언어 지원"위스퍼 3는 인간의 음성 인식 능력에 근접한 성능을 보여주고 있.. 2025. 3. 23. 이전 1 다음 반응형