본문 바로가기

벤치마크3

xAI, 플래그십 모델 경량화 'Grok 4 Fast' 공개... 비용 최대 98% 절감 인공지능(AI) 기업 xAI는 주력 모델인 Grok 4의 경량화 버전인 'Grok 4 Fast'를 출시했다고 2025년 9월 20일 밝혔다. 이 모델은 대부분의 작업에서 Grok 4와 동등한 성능을 발휘하면서도 컴퓨팅 자원을 약 40% 덜 사용하며, 작업당 비용을 최대 98%까지 절감할 수 있다는 것이 회사 측의 설명이다. Grok 4 Fast는 기존의 단순 응답 및 추론 중심 작업을 단일 아키텍처로 통합한 것이 특징이다. xAI의 이번 Grok 4 Fast 출시는 플래그십 모델의 성능을 유지하면서도 운영 효율성을 극대화하는 데 중점을 두었다. 회사는 이 모델이 비슷한 결과를 도출하기 위해 평균적으로 **'사고 토큰(thinking tokens)'**을 40% 적게 사용한다고 강조했다. 이는 복잡한 .. 2025. 9. 21.

AI2, 소형 AI 모델 ‘Olmo 2 1B’로 구글·메타·알리바바 능가 1B 파라미터 모델, GSM8K·TruthfulQA 등 주요 벤치마크서 경쟁사 앞서공개 데이터·코드로 누구나 재현 가능…개발자 접근성 대폭 향상 비영리 인공지능 연구기관 AI2가 2025년 5월 1일, 10억(1B) 파라미터 규모의 소형 AI 모델 ‘Olmo 2 1B’를 공개했다. 이 모델은 구글, 메타, 알리바바 등 글로벌 빅테크의 동급 모델을 여러 벤치마크에서 앞서는 성능을 보이며, 오픈소스 AI 생태계에 새로운 바람을 불러일으키고 있다. Ai2Ai2 has 498 repositories available. Follow their code on GitHub.github.com AI2의 Olmo 2 1B는 4조 토큰의 고품질 데이터로 학습됐으며, Apache 2.0 라이선스로 공개되어 누구나 자유롭게 .. 2025. 5. 2.

AWS, '코딩 에이전트' 벤치마크 SWE-PolyBench 전격 공개 파이썬 한계 넘은 다국어·실전 환경 평가실제 깃허브 이슈 기반, 복합 작업까지 정밀 검증 아마존웹서비스(AWS)가 4월 23일(현지시간) 인공지능(AI) 코딩 에이전트의 실질적 성능을 평가할 수 있는 다국어 벤치마크 'SWE-PolyBench'를 공개했다. 이 벤치마크는 기존 파이썬 중심의 평가 도구 한계를 극복하고, 현실적인 개발 환경에서 다양한 언어와 복합 업무 유형에 대한 AI의 실력을 정밀하게 검증하기 위해 마련됐다. Amazon introduces SWE-PolyBench, a multilingual benchmark for AI Coding Agents | Amazon Web ServicesCoding agents powered by large language models have shown.. 2025. 4. 30.

이전 1 다음

티스토리툴바