본문 바로가기
반응형

AI모델21

새 AI '문드림 3' 공개... 20억 활성 파라미터로 '경이로운' 성능 MoE 아키텍처로 소비자용 하드웨어에서 구동 가능객체 탐지, 시각 추론, GUI 분석까지... '과소평가된 모델' 평가 새로운 소형 비전 언어 모델(VLM) '문드림 3(Moondream 3)'가 공개되어 주목받고 있다. 이 모델은 총 90억 개의 파라미터를 가졌지만, 전문가 혼합(MoE) 아키텍처를 사용해 실제 활성 파라미터는 20억 개에 불과하다. 작은 크기에도 불구하고 "현재 최고의(goated) 모델 중 하나"이자 "경이로운" 성능을 보여준다는 평가다.문드림 3는 소비자용 하드웨어에서도 실행할 수 있을 만큼 가벼운 것이 특징이다. 허깅페이스(Hugging Face)를 통해 모델에 접근할 수 있으나, 전용 토큰을 사용한 접근 승인이 필요하다. 라이선스 측면에서는 상업적 이용은 가능하지만, 모델 자체.. 2025. 11. 16.
MS, 자체 개발 AI 이미지 생성기 ‘MAI-Image-1’ 공개 ‘사실적 묘사’에 중점… LMArena 리더보드 톱 10 진입코파일럿·빙 이미지 크리에이터에 곧 탑재 예정 마이크로소프트(MS)가 2025년 10월 13일, 첫 번째 자체 개발(in-house) 텍스트-이미지 AI 모델인 ‘MAI-Image-1’을 발표했다. 이 모델은 특히 고품질의 사실적인 이미지 생성에 중점을 두고 개발됐다. MAI-Image-1은 커뮤니티 기반 LMArena 리더보드에서 공개 직후 텍스트-이미지 모델 부문 10위권에 진입하며 경쟁력을 입증했다. MS에 따르면 이 모델은 사실적인 조명, 복잡한 구도, 자연스러운 질감 표현에 강점을 보인다. 이는 일반적인 이미지 생성 외에도 게임, 영화 등 전문적인 창작 워크플로우에서 아티스트와 디자이너가 복잡한 아이디어를 빠르게 시각화하는 데 도움을 .. 2025. 11. 5.
캔바, '크리에이티브 OS' 선언... 디자인 특화 AI 모델 및 마케팅 도구 대거 출시 "세계 최초" 디자인 중심 AI 모델 공개... 비디오 에디터·이메일 디자인 기능 강화'Canva Grow' 마케팅 플랫폼, 'Forms' 데이터 수집 도구 등 Visual Suite 전면 개편 디자인 플랫폼 캔바(Canva)가 "세계 최초"의 디자인 중심 AI 모델을 기반으로 한 새로운 디지털 마케팅 및 비디오 편집 도구를 선보인다. 이번 출시는 마케팅팀을 위한 "크리에이티브 운영체제(Creative Operating System)"라고 불리는 '비주얼 스위트(Visual Suite)' workplace 제품군의 전면 개편의 일환이다.캔바는 '운영체제'라는 용어가 전통적인 OS는 아니라고 밝혔다. 이는 다양한 작업별 도구, AI 엔진, 플랫폼 인터페이스를 총칭하는 용어다. 캔바의 공동 창업자 카메론 아.. 2025. 11. 2.
알리바바, Qwen3 컴팩트 멀티모달 모델 공개…GPT-4o 등과 경쟁 30억 활성 파라미터로 고성능 발휘, 수학·이미지 인식·에이전트 제어 강화FP8 버전 포함하여 오픈소스로 제공…HuggingFace, GitHub 등에서 이용 가능 중국 기술 대기업 알리바바(Alibaba)의 AI 연구 조직인 Qwen 팀이 'Qwen3-Omni' 계열의 새로운 소규모 멀티모달 모델 두 가지를 오픈소스로 공개했다. 이 모델들은 각각 30억 개의 활성 파라미터(3B active parameters)를 가졌음에도 불구하고, 대규모 모델인 GPT-4o 및 클로드 3 소네트(Claude 3 Sonnet)와 경쟁할 만한 고성능을 발휘한다고 발표했다. 새롭게 공개된 모델은 Qwen3-VL-30B-A3B-Instruct와 Qwen3-VL-30B-A3B-Thinking 버전이다. Qwen3 컴.. 2025. 10. 5.
알리바바, 자체 최대 규모 AI 모델 'Qwen3-Max' 공개 1천만 토큰 컨텍스트 지원, 다중 모드 기능 강화로 경쟁력 확보빅테크 AI 경쟁 심화... 한국 시장 진출 가능성에 관심 집중중국 IT 공룡 알리바바 그룹이 자체 개발한 초거대 언어 모델 '퉁이쳰원(通義千問)' 시리즈의 최신작 'Qwen3-Max'를 전격 출시했다. 이번 모델은 알리바바가 공개한 AI 모델 중 역대 최대 규모와 최고 성능을 자랑하며, 인공지능(AI) 시장의 경쟁 구도에 새로운 변수가 될 전망이다. Qwen3-Max는 특히 1천만 토큰에 달하는 방대한 컨텍스트(문맥) 처리 능력을 갖춘 것이 특징이다. 이는 기존 모델들이 수십만에서 100만 토큰 수준의 컨텍스트를 지원했던 것에 비해 압도적인 성능이다. 이를 통해 사용자는 장문의 문서, 코드, 영상, 오디오 파일 등을 한 번에 처리하고 분석할.. 2025. 9. 25.
알리바바, 멀티모달 AI 'Qwen3-Omni' 오픈소스 공개 텍스트·음성·이미지·영상 통합 처리…오픈소스 AI 생태계에 새바람실시간 음성 상호작용 가능…다국어 지원으로 활용성 극대화 알리바바 클라우드의 AI 연구팀인 콴원(Qwen)이 텍스트, 이미지, 오디오, 비디오를 모두 이해하고 실시간 음성으로 응답하는 옴니모달(omni-modal) 대규모 언어모델(LLM) 'Qwen3-Omni'를 오픈소스로 공개했다. 이는 폐쇄형 모델이 주도하던 멀티모달 AI 시장에서 오픈소스 모델의 새로운 가능성을 제시했다는 평가를 받고 있다.텍스트 넘어 멀티모달로…경계 허무는 AI최근 인공지능 분야는 단순히 텍스트를 처리하는 것을 넘어, 음성, 이미지, 영상을 복합적으로 이해하고 상호작용하는 멀티모달 기술 경쟁이 치열하다. 'Qwen3-Omni'는 이러한 흐름 속에서 텍스트와 비전, 오.. 2025. 9. 23.
반응형