반응형
영상·음성만으로 코딩 척척... 제미나이 3.1 Pro와 대등한 성능 확보

중국 알리바바가 텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 강력한 옴니모달(Omni-modal) AI 모델 'Qwen3.5-Omni'를 공개하며 글로벌 선두권과의 격차를 좁혔다. 특히 별도의 코딩 학습 없이 시각 정보와 음성 지시만으로 복잡한 프로그램을 설계하는 능력을 선보여 업계를 놀라게 했다.
반응형
Qwen3.5-Omni는 구글의 '제미나이 3.1 Pro'와 대등하거나 일부 지표에서는 이를 상회하는 성능을 보여주는 것으로 나타났다. 가장 큰 특징은 실시간 스트리밍 대화 능력이다. 사용자가 카메라로 주변 환경을 보여주며 실시간으로 질문하면, AI가 즉각적인 오디오 피드백과 함께 관련 정보를 인터넷에서 검색해 답변한다. 이는 구글과 오픈AI가 주도해온 멀티모달 경쟁 구도에 강력한 변수로 작용할 전망이다.
특히 비디오 입력 기반의 코딩 능력은 실무자들 사이에서 큰 화제다. 화면 속의 오류 현상을 영상으로 보여주면 AI가 원인을 분석하고 즉시 수정된 코드를 제안하는 방식이다. 알리바바는 이 모델을 오픈 소스 기반으로 제공하여 개발자 생태계를 빠르게 확장한다는 전략을 세웠다.
업계에서는 이번 발표가 글로벌 AI 패권 경쟁에서 중국의 기술력을 재확인시킨 사례라고 평가한다. Qwen3.5-Omni의 등장은 북미 중심의 AI 시장에 자극제가 될 것으로 보이며, 향후 실시간 통번역, 지능형 관제, 교육용 AI 비서 등 다양한 분야에서 상용화가 가속화될 전망이다.
참고자료: 알리바바 Qwen 공식 발표자료
반응형
'IT' 카테고리의 다른 글
| 인공지능 인프라 투자 과열… ‘소버린 AI’·인재 양성 총력전 (0) | 2026.04.06 |
|---|---|
| Holo3, 실무 자동화 '성공률 78.8%' 달성… "컴퓨터 직접 쓰는 AI 시대" (0) | 2026.04.04 |
| Mistral, 오픈소스 음성 생성 모델 공개 (0) | 2026.03.30 |
| Mistral, 기업용 커스텀 AI 플랫폼 ‘Forge’ 출시 (0) | 2026.03.25 |
| Google Stitch AI, 디자인·건축 분야 대격변 일으켜 (0) | 2026.03.25 |