반응형 비전ai1 구글 딥마인드, ‘비전 바나나’ 공개…이미지 생성 AI가 시각 이해까지 수행 객체 분할·깊이 추정 등 2D·3D 비전 과제에서 전문 모델과 경쟁 구글 딥마인드 연구진이 이미지 생성 모델을 기반으로 시각 이해 작업까지 수행하는 통합 모델 ‘비전 바나나’를 공개했다. 연구진은 이미지 생성 학습이 대형언어모델의 사전학습처럼 시각 세계에 대한 일반화된 표현을 형성할 수 있다고 설명했다. 비전 바나나는 나노 바나나 프로를 기반으로 소량의 시각 과제 데이터를 추가 학습해 만들어졌다. 비전 바나나는 이미지 속 서로 다른 사물을 색으로 구분하는 의미론적 분할, 같은 종류의 사물을 개별적으로 나누는 객체 분할, 사진 속 물체의 깊이를 추정하는 3D 이해 작업 등을 수행한다. 매일경제 보도에 따르면 기존에는 이런 작업을 위해 각 기능에 특화된 별도 비전 모델을 사용하는 경우가 많았지만, 비전 바.. 2026. 4. 26. 이전 1 다음 반응형