본문 바로가기
IT

알리바바, 옴니모달 'Qwen3.5-Omni' 기습 공개… 구글·오픈AI에 도전장

by 카메라의눈 2026. 4. 4.
반응형
영상·음성만으로 코딩 척척... 제미나이 3.1 Pro와 대등한 성능 확보

Qwen3.5-Omni

 

중국 알리바바가 텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 강력한 옴니모달(Omni-modal) AI 모델 'Qwen3.5-Omni'를 공개하며 글로벌 선두권과의 격차를 좁혔다. 특히 별도의 코딩 학습 없이 시각 정보와 음성 지시만으로 복잡한 프로그램을 설계하는 능력을 선보여 업계를 놀라게 했다.

반응형

Qwen3.5-Omni는 구글의 '제미나이 3.1 Pro'와 대등하거나 일부 지표에서는 이를 상회하는 성능을 보여주는 것으로 나타났다. 가장 큰 특징은 실시간 스트리밍 대화 능력이다. 사용자가 카메라로 주변 환경을 보여주며 실시간으로 질문하면, AI가 즉각적인 오디오 피드백과 함께 관련 정보를 인터넷에서 검색해 답변한다. 이는 구글과 오픈AI가 주도해온 멀티모달 경쟁 구도에 강력한 변수로 작용할 전망이다.

 

특히 비디오 입력 기반의 코딩 능력은 실무자들 사이에서 큰 화제다. 화면 속의 오류 현상을 영상으로 보여주면 AI가 원인을 분석하고 즉시 수정된 코드를 제안하는 방식이다. 알리바바는 이 모델을 오픈 소스 기반으로 제공하여 개발자 생태계를 빠르게 확장한다는 전략을 세웠다.

 

업계에서는 이번 발표가 글로벌 AI 패권 경쟁에서 중국의 기술력을 재확인시킨 사례라고 평가한다. Qwen3.5-Omni의 등장은 북미 중심의 AI 시장에 자극제가 될 것으로 보이며, 향후 실시간 통번역, 지능형 관제, 교육용 AI 비서 등 다양한 분야에서 상용화가 가속화될 전망이다.

 

참고자료: 알리바바 Qwen 공식 발표자료

 

 

반응형