본문 바로가기
IT

구글 딥마인드, ‘비전 바나나’ 공개…이미지 생성 AI가 시각 이해까지 수행

by 카메라의눈 2026. 4. 26.
반응형
객체 분할·깊이 추정 등 2D·3D 비전 과제에서 전문 모델과 경쟁

 

비전 바나나
ai생성이미지

 

구글 딥마인드 연구진이 이미지 생성 모델을 기반으로 시각 이해 작업까지 수행하는 통합 모델 ‘비전 바나나’를 공개했다. 연구진은 이미지 생성 학습이 대형언어모델의 사전학습처럼 시각 세계에 대한 일반화된 표현을 형성할 수 있다고 설명했다. 비전 바나나는 나노 바나나 프로를 기반으로 소량의 시각 과제 데이터를 추가 학습해 만들어졌다. 

반응형

비전 바나나는 이미지 속 서로 다른 사물을 색으로 구분하는 의미론적 분할, 같은 종류의 사물을 개별적으로 나누는 객체 분할, 사진 속 물체의 깊이를 추정하는 3D 이해 작업 등을 수행한다. 매일경제 보도에 따르면 기존에는 이런 작업을 위해 각 기능에 특화된 별도 비전 모델을 사용하는 경우가 많았지만, 비전 바나나는 생성 모델을 조정해 이미지 생성과 이해를 동시에 처리하는 방향을 제시했다.

 

구글 딥마인드 연구진은 비전 바나나가 다양한 2D·3D 이해 과제에서 기존 전문 모델과 비슷하거나 더 나은 성능을 보였다고 밝혔다. 특히 세그먼트 애니싱 계열의 분할 모델, 뎁스 애니싱 계열의 깊이 추정 모델과 비교해 경쟁력 있는 결과를 냈다는 점을 강조했다.

 

다만 상용화까지는 과제가 남아 있다. 매일경제는 비전 바나나가 아직 연구 프로젝트 단계이며, 생성 모델 기반 접근은 기존 경량 특화 모델보다 더 많은 연산량을 요구한다고 전했다. 향후 속도와 비용 문제가 개선된다면 이미지 생성 AI와 컴퓨터 비전 AI의 경계는 더욱 빠르게 흐려질 것으로 보인다.

 

https://deepmind.google/research/publications/240658/

 

Image Generators are Generalist Vision Learners

Recent works show that image and video generators exhibit zero-shot visual understanding behaviors, in a way reminiscent of how Large Language Models (LLMs) such as Gemini and GPT develop emergent capabilities of language understanding and reasoning from g

deepmind.google

 

 

 

참고자료: Google DeepMind, 매일경제

반응형