반응형
MoE 아키텍처로 소비자용 하드웨어에서 구동 가능
객체 탐지, 시각 추론, GUI 분석까지... '과소평가된 모델' 평가

새로운 소형 비전 언어 모델(VLM) '문드림 3(Moondream 3)'가 공개되어 주목받고 있다. 이 모델은 총 90억 개의 파라미터를 가졌지만, 전문가 혼합(MoE) 아키텍처를 사용해 실제 활성 파라미터는 20억 개에 불과하다. 작은 크기에도 불구하고 "현재 최고의(goated) 모델 중 하나"이자 "경이로운" 성능을 보여준다는 평가다.
반응형
문드림 3는 소비자용 하드웨어에서도 실행할 수 있을 만큼 가벼운 것이 특징이다. 허깅페이스(Hugging Face)를 통해 모델에 접근할 수 있으나, 전용 토큰을 사용한 접근 승인이 필요하다. 라이선스 측면에서는 상업적 이용은 가능하지만, 모델 자체를 재판매하는 것은 허용되지 않는다.
문드림 3는 테스트에서 강력한 다중 모드(multi-modal) 성능을 입증했다.
주요 기능은 다음과 같다:
- 객체 탐지: 위성 이미지에서 고래를 정확히 찾아내거나, 이미지 속 창문이나 총을 탐지하는 능력을 보였다.
- 시각 기반 추론: 단순히 물체를 찾는 것을 넘어, 이미지 속 인물의 목걸이나 나비넥타이를 정확히 짚어내는 등 복잡한 시각적 질문에 답할 수 있다.
- 구조화된 출력: 메뉴 카드 이미지에서 JSON 형식으로 데이터를 추출하는 등 구조화된 결과물을 생성할 수 있다.
- GUI(그래픽 사용자 인터페이스) 분석: SAP 프로그램 스크린샷에서 'SAP LMGD1'이라는 정확한 프로그램 이름을 식별하고, '00101'이라는 자재 그룹 값을 정확히 읽어내는 등 GUI 객체 식별에서 뛰어난 성능을 나타냈다.
테스트를 진행한 유튜버 '1littlecoder'는 이 모델이 매우 빠르며 자신의 테스트 결과에 "매우 감명받았다"고 밝혔다. 그는 문드림 3가 "가장 과소평가된" 모델일 수 있다며, 작은 크기에도 불구하고 강력한 성능을 제공한다고 덧붙였다.
영상 URL: http://www.youtube.com/watch?v=l8n2oTlblYY
반응형
'IT' 카테고리의 다른 글
| OpenAI, GPT-5.1 성능 극대화 위한 '프롬프트 가이드' 공개 (0) | 2025.11.16 |
|---|---|
| OpenAI, GPT-5.1 공개... 더 따뜻한 AI (0) | 2025.11.13 |
| 구글, ‘프라이빗 AI 컴퓨트’ 공개… “클라우드 AI도 개인정보 보호” (0) | 2025.11.12 |
| 구글, AI 사진 편집 ‘나노 바나나’·‘애스크 포토’ 공개 (0) | 2025.11.12 |
| MS, 자체 개발 AI 이미지 생성기 ‘MAI-Image-1’ 공개 (0) | 2025.11.05 |