본문 바로가기
IT

구글, 초저가·초고속 모델 ‘Gemini 3.1 Flash-Lite’ 공개… 1M 토큰당 입력 0.25달러

by 카메라의눈 2026. 3. 5.
반응형
Gemini 3.1 시리즈 최경량 버전 → 대규모 에이전트·엣지·저지연 작업 특화

Gemini 3.1 Flash-Lite
이미지 : Google Blog

 

구글이 3월 3일 Gemini API와 Google AI Studio를 통해 ‘Gemini 3.1 Flash-Lite’를 프리뷰 출시했다. 이는 Gemini 3.1 Flash보다 더 가볍고 빠르며 비용 효율적인 모델로, 입력 100만 토큰당 0.25달러, 출력 1.50달러라는 파격적인 가격을 책정했다(기존 Flash 대비 약 1/4~1/8 수준).

반응형

주요 강점은 극단적인 저지연 + 고속 출력으로, 번역·콘텐츠 모더레이션·UI 생성·시뮬레이션·대량 데이터 추출 등 고볼륨·에이전트 워크로드에 최적화됐다. 지식 컷오프는 2025년 1월이며, 멀티모달(텍스트+이미지) 네이티브 지원도 유지한다. 개발자들은 즉시 Google AI Studio에서 테스트 가능하며, 기업은 Vertex AI를 통해 도입할 수 있다.

 

이 모델은 구글이 비용·속도·성능 3박자를 모두 잡으려는 전략의 일환으로 보이며, 엣지 AI와 모바일·임베디드 환경 확대의 신호탄으로 해석된다.

 

출처: Google Blog, Google AI for Developers, DeepMind Model Card, VentureBeat (2026.03.03~04)

반응형