본문 바로가기

저비용LLM2

구글, 초저가·초고속 모델 ‘Gemini 3.1 Flash-Lite’ 공개… 1M 토큰당 입력 0.25달러 Gemini 3.1 시리즈 최경량 버전 → 대규모 에이전트·엣지·저지연 작업 특화 구글이 3월 3일 Gemini API와 Google AI Studio를 통해 ‘Gemini 3.1 Flash-Lite’를 프리뷰 출시했다. 이는 Gemini 3.1 Flash보다 더 가볍고 빠르며 비용 효율적인 모델로, 입력 100만 토큰당 0.25달러, 출력 1.50달러라는 파격적인 가격을 책정했다(기존 Flash 대비 약 1/4~1/8 수준).주요 강점은 극단적인 저지연 + 고속 출력으로, 번역·콘텐츠 모더레이션·UI 생성·시뮬레이션·대량 데이터 추출 등 고볼륨·에이전트 워크로드에 최적화됐다. 지식 컷오프는 2025년 1월이며, 멀티모달(텍스트+이미지) 네이티브 지원도 유지한다. 개발자들은 즉시 Google AI St.. 2026. 3. 5.

중국 MiniMax, M2.5 / M2.5 Lightning 공개 오픈소스 MoE 아키텍처로 가격 파괴… 연 1만 달러에 다수 에이전트 운영 가능 중국 AI 스타트업 MiniMax가 2월 12일 M2.5 시리즈를 공개하며 글로벌 LLM 시장의 가격 전쟁을 본격화했습니다. 최고 성능 모델 M2.5는 Claude Opus 4.6과 GPQA·LiveCodeBench·AgentBench 등 주요 벤치마크에서 92~96% 수준의 성능을 기록하면서도 추론 비용은 1/20 수준에 불과하다고 주장했습니다.기술적 핵심은 최적화된 Mixture of Experts(MoE) 아키텍처입니다. 총 1.8조 파라미터 중 활성화되는 파라미터를 220억 개로 제한해 연산 효율을 극대화했으며, 128K 컨텍스트를 지원하면서도 메모리 사용량을 Claude의 1/7로 줄였습니다. 특히 ‘M2.5 Lig.. 2026. 2. 18.

이전 1 다음

티스토리툴바