본문 바로가기
반응형

멀티모달6

SoundHound AI, 시각과 청각 결합한 'Vision AI' 출시 인간과 유사한 '맥락적 이해'로 자연스러운 기술 상호작용 가능자동차, 레스토랑, 공장 등 다양한 산업 분야 적용 기대 음성 AI 분야의 선두 주자인 SoundHound AI가 시각적 요소를 통합한 'Vision AI'를 출시하며 인공지능 기술의 새로운 지평을 열었다. 이번에 공개된 시스템은 카메라의 실시간 영상과 회사의 음성 기술을 결합하여, 사용자가 보고 듣는 것을 동시에 이해함으로써 더욱 자연스럽고 직관적인 상호작용을 가능하게 한다. SoundHound AI의 Vision AI는 단순한 다중 모드(multi-modal)를 넘어, 인간의 행동 방식을 모방하는 '맥락적 이해'에 초점을 맞추고 있다. 예를 들어, 운전 중 "저기 저 건물 뭐야?"라고 물으면, 휴대폰을 꺼낼 필요 없이 AI가 시각적으로 건물.. 2025. 8. 12.
텐센트 클라우드, AIoT 2.0 전면 업그레이드…TWeTalk·TWeSee 통합 하드웨어-소프트웨어 통합 솔루션으로 스마트 디바이스 개발 표준 제시 텐센트 클라우드가 AIoT 2.0 제품 솔루션의 전면 업그레이드를 발표했다. 이는 하드웨어-소프트웨어 통합과 즉시 사용 가능한 멀티모달 기능을 제공하는 혁신적인 솔루션이다.PR Newswire에 따르면, 텐센트 클라우드는 글로벌 기술 기업 텐센트의 클라우드 사업부로, AIoT 2.0을 통해 스마트 하드웨어의 글로벌 확장을 지원할 계획이다. 업그레이드된 솔루션의 핵심은 음성 지능 시스템인 TWeTalk과 비디오 지능 시스템인 TWeSee다. 이 두 시스템은 텐센트 클라우드의 기초 AIoT 플랫폼에 깊이 통합되어 디바이스 관리, 메시징, 엔드투엔드 오디오 및 비디오 통신을 제공한다.텐센트 클라우드 AIoT 팀은 "버전 1.0과 비교해 AIo.. 2025. 8. 11.
한국 게임사들, 정부 AI 파운데이션 모델 개발 참여 NC소프트 NCAI·크래프톤 SKT 컨소시엄 참여·게임업계 기술력 활용 한국의 대표적인 게임 기업들이 정부의 독립형 AI 파운데이션 모델 개발 프로젝트에 참여해 주목받고 있다. NC소프트와 크래프톤이 각각 다른 컨소시엄을 통해 한국을 대표하는 AI 모델 개발에 나서면서, 게임업계가 축적한 AI 기술력을 국가 AI 생태계 구축에 활용하는 새로운 모델이 등장했다. 게임업계는 AI 기술을 가장 빠르게 연구하고 활용한 분야로 평가받고 있다. NC소프트의 AI 자회사 NCAI는 정부 독립형 AI 파운데이션 모델 프로젝트에서 컨소시엄 주관기관으로 참여한다. NCAI는 자체 모델을 보유하고 있으며, 음성과 이미지로 확장되는 멀티모달 모델 기술과 게임, 패션 등 다양한 산업에서 기술을 상용화한 경험을 갖고 있다. NC.. 2025. 7. 27.
네이버, AI 검색 혁신 '브리핑' 서비스 공식 출시 한국 특화 검색 경쟁력 강화... 구글 AI 오버뷰와 차별화올해 내 다국어 지원 및 이미지 검색 기능 추가 예정 네이버가 지난 3월 27일 인공지능(AI) 기술을 활용한 검색 서비스 'AI 브리핑'을 공식 출시했다. 이 서비스는 사용자 검색에 최적화된 답변을 제공하며, 블로그와 카페 등 네이버의 다양한 콘텐츠를 활용해 정보를 찾아 알려주는 방식으로 운영된다. AI 브리핑은 별도 가입 없이 네이버의 PC와 모바일 서비스에서 바로 이용 가능하다. 사용자가 검색한 내용에 대해 AI가 다양한 출처를 참조하여 요약된 답변을 제공하고, 블로그, 카페, 클립 등 원본 콘텐츠의 출처도 직관적으로 확인할 수 있게 했다. 네이버는 AI 브리핑을 공식형, 멀티소스형, 숏콘텐츠형, 플레이스형, 쇼핑형 등 5가지 유형으로 분류.. 2025. 4. 4.
바이두, AI 모델 ERNIE 4.5 및 ERNIE X1 출시로 중국 AI 경쟁 격화 ERNIE 4.5, 멀티모달 이해 능력 강화ERNIE X1, 딥씽킹 모델로 DeepSeek R1 성능에 도전  중국의 기술 기업 바이두가 2025년 3월 16일, 최신 AI 모델인 ERNIE 4.5와 ERNIE X1을 공개하며 중국 내 AI 경쟁에 불을 지폈다. ERNIE 4.5는 멀티모달 이해 능력을 갖춘 기초 모델로, 텍스트와 이미지, 오디오, 비디오를 통합 처리할 수 있으며, ERNIE X1은 딥씽킹(reasoning) 능력을 강화한 모델로 DeepSeek R1과 유사한 성능을 절반의 비용으로 제공한다.    ERNIE 4.5: 멀티모달 이해의 진화바이두의 최신 기초 모델 ERNIE 4.5는 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터 유형을 통합 처리하는 멀티모달 능력을 갖추고 있다. 이 .. 2025. 3. 17.
오픈AI, 감성지능 강화 및 성능 개선된 GPT-4.5 '오리온' 공식 출시 2월 28일 공식 출시…월 200달러 프로 구독자 우선 제공"감성지능 47% 향상·환각 현상 40% 감소" 성능 개선 주장 오픈AI가 2025년 2월 28일(현지시간) 차세대 AI 모델 GPT-4.5 '오리온(Orion)'을 공식 출시했습니다. 이 모델은 ▲역대 최대 규모의 파라미터 ▲감성지능(EQ) 강화 ▲멀티모달 기능 통합 등 3대 혁신을 내세웠으나, 동시에 ▲과도한 연산 비용 ▲애니악 효과(기술 발전 속도 저하) 논란이라는 도전과제도 노출시켰습니다.기술적 도약의 상징GPT-4.5는 2023년 GPT-4 출시 이후 2년 만에 공개된 메이저 업데이트입니다. 테크크런치에 따르면 이 모델은 1.8조 개의 파라미터를 자랑하며, 전작 대비 300% 증가한 학습 데이터셋을 활용했습니다. 오픈AI 미아 글레제스 .. 2025. 2. 28.
반응형