본문 바로가기
반응형

멀티모달7

알리바바, Qwen3 컴팩트 멀티모달 모델 공개…GPT-4o 등과 경쟁 30억 활성 파라미터로 고성능 발휘, 수학·이미지 인식·에이전트 제어 강화FP8 버전 포함하여 오픈소스로 제공…HuggingFace, GitHub 등에서 이용 가능 중국 기술 대기업 알리바바(Alibaba)의 AI 연구 조직인 Qwen 팀이 'Qwen3-Omni' 계열의 새로운 소규모 멀티모달 모델 두 가지를 오픈소스로 공개했다. 이 모델들은 각각 30억 개의 활성 파라미터(3B active parameters)를 가졌음에도 불구하고, 대규모 모델인 GPT-4o 및 클로드 3 소네트(Claude 3 Sonnet)와 경쟁할 만한 고성능을 발휘한다고 발표했다. 새롭게 공개된 모델은 Qwen3-VL-30B-A3B-Instruct와 Qwen3-VL-30B-A3B-Thinking 버전이다. Qwen3 컴.. 2025. 10. 5.
SoundHound AI, 시각과 청각 결합한 'Vision AI' 출시 인간과 유사한 '맥락적 이해'로 자연스러운 기술 상호작용 가능자동차, 레스토랑, 공장 등 다양한 산업 분야 적용 기대 음성 AI 분야의 선두 주자인 SoundHound AI가 시각적 요소를 통합한 'Vision AI'를 출시하며 인공지능 기술의 새로운 지평을 열었다. 이번에 공개된 시스템은 카메라의 실시간 영상과 회사의 음성 기술을 결합하여, 사용자가 보고 듣는 것을 동시에 이해함으로써 더욱 자연스럽고 직관적인 상호작용을 가능하게 한다. SoundHound AI의 Vision AI는 단순한 다중 모드(multi-modal)를 넘어, 인간의 행동 방식을 모방하는 '맥락적 이해'에 초점을 맞추고 있다. 예를 들어, 운전 중 "저기 저 건물 뭐야?"라고 물으면, 휴대폰을 꺼낼 필요 없이 AI가 시각적으로 건물.. 2025. 8. 12.
텐센트 클라우드, AIoT 2.0 전면 업그레이드…TWeTalk·TWeSee 통합 하드웨어-소프트웨어 통합 솔루션으로 스마트 디바이스 개발 표준 제시 텐센트 클라우드가 AIoT 2.0 제품 솔루션의 전면 업그레이드를 발표했다. 이는 하드웨어-소프트웨어 통합과 즉시 사용 가능한 멀티모달 기능을 제공하는 혁신적인 솔루션이다.PR Newswire에 따르면, 텐센트 클라우드는 글로벌 기술 기업 텐센트의 클라우드 사업부로, AIoT 2.0을 통해 스마트 하드웨어의 글로벌 확장을 지원할 계획이다. 업그레이드된 솔루션의 핵심은 음성 지능 시스템인 TWeTalk과 비디오 지능 시스템인 TWeSee다. 이 두 시스템은 텐센트 클라우드의 기초 AIoT 플랫폼에 깊이 통합되어 디바이스 관리, 메시징, 엔드투엔드 오디오 및 비디오 통신을 제공한다.텐센트 클라우드 AIoT 팀은 "버전 1.0과 비교해 AIo.. 2025. 8. 11.
한국 게임사들, 정부 AI 파운데이션 모델 개발 참여 NC소프트 NCAI·크래프톤 SKT 컨소시엄 참여·게임업계 기술력 활용 한국의 대표적인 게임 기업들이 정부의 독립형 AI 파운데이션 모델 개발 프로젝트에 참여해 주목받고 있다. NC소프트와 크래프톤이 각각 다른 컨소시엄을 통해 한국을 대표하는 AI 모델 개발에 나서면서, 게임업계가 축적한 AI 기술력을 국가 AI 생태계 구축에 활용하는 새로운 모델이 등장했다. 게임업계는 AI 기술을 가장 빠르게 연구하고 활용한 분야로 평가받고 있다. NC소프트의 AI 자회사 NCAI는 정부 독립형 AI 파운데이션 모델 프로젝트에서 컨소시엄 주관기관으로 참여한다. NCAI는 자체 모델을 보유하고 있으며, 음성과 이미지로 확장되는 멀티모달 모델 기술과 게임, 패션 등 다양한 산업에서 기술을 상용화한 경험을 갖고 있다. NC.. 2025. 7. 27.
네이버, AI 검색 혁신 '브리핑' 서비스 공식 출시 한국 특화 검색 경쟁력 강화... 구글 AI 오버뷰와 차별화올해 내 다국어 지원 및 이미지 검색 기능 추가 예정 네이버가 지난 3월 27일 인공지능(AI) 기술을 활용한 검색 서비스 'AI 브리핑'을 공식 출시했다. 이 서비스는 사용자 검색에 최적화된 답변을 제공하며, 블로그와 카페 등 네이버의 다양한 콘텐츠를 활용해 정보를 찾아 알려주는 방식으로 운영된다. AI 브리핑은 별도 가입 없이 네이버의 PC와 모바일 서비스에서 바로 이용 가능하다. 사용자가 검색한 내용에 대해 AI가 다양한 출처를 참조하여 요약된 답변을 제공하고, 블로그, 카페, 클립 등 원본 콘텐츠의 출처도 직관적으로 확인할 수 있게 했다. 네이버는 AI 브리핑을 공식형, 멀티소스형, 숏콘텐츠형, 플레이스형, 쇼핑형 등 5가지 유형으로 분류.. 2025. 4. 4.
바이두, AI 모델 ERNIE 4.5 및 ERNIE X1 출시로 중국 AI 경쟁 격화 ERNIE 4.5, 멀티모달 이해 능력 강화ERNIE X1, 딥씽킹 모델로 DeepSeek R1 성능에 도전  중국의 기술 기업 바이두가 2025년 3월 16일, 최신 AI 모델인 ERNIE 4.5와 ERNIE X1을 공개하며 중국 내 AI 경쟁에 불을 지폈다. ERNIE 4.5는 멀티모달 이해 능력을 갖춘 기초 모델로, 텍스트와 이미지, 오디오, 비디오를 통합 처리할 수 있으며, ERNIE X1은 딥씽킹(reasoning) 능력을 강화한 모델로 DeepSeek R1과 유사한 성능을 절반의 비용으로 제공한다.    ERNIE 4.5: 멀티모달 이해의 진화바이두의 최신 기초 모델 ERNIE 4.5는 텍스트, 이미지, 오디오, 비디오 등 다양한 데이터 유형을 통합 처리하는 멀티모달 능력을 갖추고 있다. 이 .. 2025. 3. 17.
반응형