영상 속 특정 장면 1초 만에 포착… 모바일 기기 제어하는 ‘에이전트’ 기능 탑재
25만 토큰 기본 처리에 최대 100만 토큰 확장… 긴 영상 분석의 ‘게임 체인저’

알리바바 클라우드가 2시간 분량의 고해상도 영상을 정밀하게 분석하고, 스마트폰과 컴퓨터를 스스로 조작할 수 있는 차세대 시각-언어 모델(VLM) ‘Qwen3-VL(퀴원3-VL)’을 전격 공개했다. 이번 모델은 영상 이해력과 연산 효율성에서 경쟁작인 구글의 ‘제미나이 2.5 프로(Gemini 2.5 Pro)’와 오픈AI의 ‘GPT-5’를 일부 지표에서 앞선 것으로 나타나, 글로벌 AI 시장의 지각변동을 예고했다.
◇ 2시간 영상도 ‘초단위’로 분석… “바늘 찾기 정확도 99.5%”
알리바바 클라우드의 퀴원(Qwen) 팀은 28일(현지시간) 공식 블로그와 기술 보고서를 통해 Qwen3-VL 시리즈의 출시를 알렸다. 이 모델의 핵심 강점은 압도적인 ‘장기 영상 이해(Long Video Understanding)’ 능력이다.
기존 AI 모델들이 몇 분짜리 짧은 클립 분석에 그쳤던 것과 달리, Qwen3-VL은 최소 25만(256K) 토큰에서 최대 100만(1M) 토큰에 달하는 방대한 문맥을 처리할 수 있다. 이는 약 2시간 분량의 연속 영상을 끊김 없이 이해할 수 있는 수준이다.
특히 영상 속 특정 장면이나 객체를 찾아내는 ‘비주얼 그라운딩(Visual Grounding)’ 능력이 비약적으로 향상됐다. 알리바바 측에 따르면, 30분 분량의 영상에서 특정 프레임을 찾는 ‘니들 인 어 헤이스택(Needle-in-a-haystack)’ 테스트에서 100%의 정확도를 기록했으며, 2시간 분량 영상에서도 99.5%의 정확도를 유지했다.
◇ 모바일·PC 직접 조작… ‘행동하는 AI’로 진화
Qwen3-VL은 단순히 보는 것을 넘어 행동하는 ‘에이전트(Agent)’ 능력도 갖췄다. 이 모델은 안드로이드 스마트폰이나 PC 화면을 인식하고, 사람처럼 클릭이나 스크롤을 수행할 수 있다.
그래픽 사용자 인터페이스(GUI) 탐색 능력을 평가하는 ‘스크린스팟 프로(ScreenSpot Pro)’ 벤치마크에서 Qwen3-VL은 61.8%의 정확도를 기록했으며, 안드로이드 앱 조작 테스트인 ‘안드로이드월드(AndroidWorld)’에서도 63.7%(32B 모델 기준)의 성과를 냈다. 이는 AI가 복잡한 쇼핑 앱을 실행해 물건을 주문하거나, 업무용 소프트웨어를 다루는 비서 역할을 수행할 수 있음을 시사한다.
◇ “수학·과학에서도 최고 수준”… 글로벌 빅테크 압도
이번 모델은 시각적 추론 능력에서도 경쟁사들을 따돌렸다. 수학적 시각 추론 능력을 평가하는 ‘매스비전(MathVision)’ 벤치마크에서 Qwen3-VL은 74.6%를 기록해, 구글의 최신 모델인 제미나이 2.5 프로(73.3%)와 오픈AI의 GPT-5(65.8%)를 모두 앞섰다.
또한 복잡한 과학 차트를 분석하는 ‘CharXiv’ 벤치마크에서도 설명 작업 정확도 90.5%를 달성하며 전문적인 데이터 분석 도구로서의 가능성을 입증했다.
◇ 기술적 혁신: ‘텍스트 타임스탬프’ 도입
기술적으로는 영상 처리를 위한 새로운 시간 표기 방식이 도입됐다. 이전 버전인 Qwen2.5-VL이 복잡한 수학적 위치 값(T-RoPE)을 사용했던 것과 달리, Qwen3-VL은 “<3.8 seconds>”와 같은 직관적인 텍스트 기반 타임스탬프를 입력 데이터에 직접 삽입한다. 이 단순화된 접근 방식 덕분에 모델은 영상의 시간 흐름과 사건의 인과 관계를 더 명확하게 파악할 수 있게 됐다.
알리바바 클라우드 관계자는 “Qwen3-VL은 단순한 인식을 넘어 세상 깊이 이해하고 행동하는 단계로 진화했다”며 “수백 페이지의 기술 문서나 긴 강의 영상을 단 몇 초 만에 분석해내는 경험을 제공할 것”이라고 밝혔다.
[용어 설명]
- 토큰(Token): AI가 데이터를 처리하는 기본 단위. 영어 단어 하나가 약 0.75토큰에 해당하며, 100만 토큰은 방대한 책 수십 권 분량이다.
- 비주얼 그라운딩(Visual Grounding): 텍스트 명령에 해당하는 이미지나 영상 속의 특정 위치(좌표, 시간)를 정확히 찾아내는 기술.
- 에이전트(Agent): 사용자의 명령을 받아 스스로 계획을 세우고 도구(앱, 웹브라우저 등)를 사용해 작업을 완료하는 AI 시스템.
'IT' 카테고리의 다른 글
| 텐센트, 소비자용 GPU서 돌아가는 ‘훈위안비디오 1.5’ 오픈소스 공개 (0) | 2025.11.26 |
|---|---|
| 구글 TPU, 엔비디아 독점 흔드나 (0) | 2025.11.26 |
| 워너뮤직, AI 음악 '수노'와 파트너십…소송전 끝내고 '적과의 동침' (0) | 2025.11.26 |
| 스피치파이, 크롬 확장앱에 'AI 음성비서' 탑재 (0) | 2025.11.26 |
| 앤스로픽 ‘오퍼스 4.5’ 출시…엑셀·웹 직접 제어 (0) | 2025.11.25 |