본문 바로가기
IT

새 AI '문드림 3' 공개... 20억 활성 파라미터로 '경이로운' 성능

by 카메라의눈 2025. 11. 16.
반응형
MoE 아키텍처로 소비자용 하드웨어에서 구동 가능
객체 탐지, 시각 추론, GUI 분석까지... '과소평가된 모델' 평가

새 AI '문드림 3' 공개... 20억 활성 파라미터로 '경이로운' 성능
출처:문드림

 

새로운 소형 비전 언어 모델(VLM) '문드림 3(Moondream 3)'가 공개되어 주목받고 있다. 이 모델은 총 90억 개의 파라미터를 가졌지만, 전문가 혼합(MoE) 아키텍처를 사용해 실제 활성 파라미터는 20억 개에 불과하다. 작은 크기에도 불구하고 "현재 최고의(goated) 모델 중 하나"이자 "경이로운" 성능을 보여준다는 평가다.

반응형

문드림 3는 소비자용 하드웨어에서도 실행할 수 있을 만큼 가벼운 것이 특징이다. 허깅페이스(Hugging Face)를 통해 모델에 접근할 수 있으나, 전용 토큰을 사용한 접근 승인이 필요하다. 라이선스 측면에서는 상업적 이용은 가능하지만, 모델 자체를 재판매하는 것은 허용되지 않는다.

문드림 3는 테스트에서 강력한 다중 모드(multi-modal) 성능을 입증했다.

 

주요 기능은 다음과 같다:

  • 객체 탐지: 위성 이미지에서 고래를 정확히 찾아내거나, 이미지 속 창문이나 총을 탐지하는 능력을 보였다.
  • 시각 기반 추론: 단순히 물체를 찾는 것을 넘어, 이미지 속 인물의 목걸이나 나비넥타이를 정확히 짚어내는 등 복잡한 시각적 질문에 답할 수 있다.
  • 구조화된 출력: 메뉴 카드 이미지에서 JSON 형식으로 데이터를 추출하는 등 구조화된 결과물을 생성할 수 있다.
  • GUI(그래픽 사용자 인터페이스) 분석: SAP 프로그램 스크린샷에서 'SAP LMGD1'이라는 정확한 프로그램 이름을 식별하고, '00101'이라는 자재 그룹 값을 정확히 읽어내는 등 GUI 객체 식별에서 뛰어난 성능을 나타냈다.

테스트를 진행한 유튜버 '1littlecoder'는 이 모델이 매우 빠르며 자신의 테스트 결과에 "매우 감명받았다"고 밝혔다. 그는 문드림 3가 "가장 과소평가된" 모델일 수 있다며, 작은 크기에도 불구하고 강력한 성능을 제공한다고 덧붙였다.

 

영상 URL: http://www.youtube.com/watch?v=l8n2oTlblYY

 

 

반응형