객체 분할·깊이 추정 등 2D·3D 비전 과제에서 전문 모델과 경쟁

구글 딥마인드 연구진이 이미지 생성 모델을 기반으로 시각 이해 작업까지 수행하는 통합 모델 ‘비전 바나나’를 공개했다. 연구진은 이미지 생성 학습이 대형언어모델의 사전학습처럼 시각 세계에 대한 일반화된 표현을 형성할 수 있다고 설명했다. 비전 바나나는 나노 바나나 프로를 기반으로 소량의 시각 과제 데이터를 추가 학습해 만들어졌다.
비전 바나나는 이미지 속 서로 다른 사물을 색으로 구분하는 의미론적 분할, 같은 종류의 사물을 개별적으로 나누는 객체 분할, 사진 속 물체의 깊이를 추정하는 3D 이해 작업 등을 수행한다. 매일경제 보도에 따르면 기존에는 이런 작업을 위해 각 기능에 특화된 별도 비전 모델을 사용하는 경우가 많았지만, 비전 바나나는 생성 모델을 조정해 이미지 생성과 이해를 동시에 처리하는 방향을 제시했다.
구글 딥마인드 연구진은 비전 바나나가 다양한 2D·3D 이해 과제에서 기존 전문 모델과 비슷하거나 더 나은 성능을 보였다고 밝혔다. 특히 세그먼트 애니싱 계열의 분할 모델, 뎁스 애니싱 계열의 깊이 추정 모델과 비교해 경쟁력 있는 결과를 냈다는 점을 강조했다.
다만 상용화까지는 과제가 남아 있다. 매일경제는 비전 바나나가 아직 연구 프로젝트 단계이며, 생성 모델 기반 접근은 기존 경량 특화 모델보다 더 많은 연산량을 요구한다고 전했다. 향후 속도와 비용 문제가 개선된다면 이미지 생성 AI와 컴퓨터 비전 AI의 경계는 더욱 빠르게 흐려질 것으로 보인다.
https://deepmind.google/research/publications/240658/
Image Generators are Generalist Vision Learners
Recent works show that image and video generators exhibit zero-shot visual understanding behaviors, in a way reminiscent of how Large Language Models (LLMs) such as Gemini and GPT develop emergent capabilities of language understanding and reasoning from g
deepmind.google
참고자료: Google DeepMind, 매일경제
'IT' 카테고리의 다른 글
| [2026 월드IT쇼] '피지컬 AI'가 현실을 움직였다… 역대 최대 성과로 성료 (0) | 2026.04.26 |
|---|---|
| 오픈클로, AI 유지보수 시스템 ‘클로스위퍼’ 공개…오픈소스 이슈 정리 자동화 (0) | 2026.04.26 |
| 제미나이, 외부망 없이 사내 구축형으로 구동…AI 인프라 새 전환점 (0) | 2026.04.26 |
| 딥시크-V4 전격 공개… “GPT-5.5 성능을 10분의 1 가격에” (0) | 2026.04.25 |
| 오픈AI, ‘GPT-5.5’ 전격 공개… “스스로 사고하고 행동하는 에이전트 시대 개막” (0) | 2026.04.25 |