본문 바로가기
반응형

벤치마크2

AI2, 소형 AI 모델 ‘Olmo 2 1B’로 구글·메타·알리바바 능가 1B 파라미터 모델, GSM8K·TruthfulQA 등 주요 벤치마크서 경쟁사 앞서공개 데이터·코드로 누구나 재현 가능…개발자 접근성 대폭 향상 비영리 인공지능 연구기관 AI2가 2025년 5월 1일, 10억(1B) 파라미터 규모의 소형 AI 모델 ‘Olmo 2 1B’를 공개했다. 이 모델은 구글, 메타, 알리바바 등 글로벌 빅테크의 동급 모델을 여러 벤치마크에서 앞서는 성능을 보이며, 오픈소스 AI 생태계에 새로운 바람을 불러일으키고 있다. Ai2Ai2 has 498 repositories available. Follow their code on GitHub.github.com AI2의 Olmo 2 1B는 4조 토큰의 고품질 데이터로 학습됐으며, Apache 2.0 라이선스로 공개되어 누구나 자유롭게 .. 2025. 5. 2.
AWS, '코딩 에이전트' 벤치마크 SWE-PolyBench 전격 공개 파이썬 한계 넘은 다국어·실전 환경 평가실제 깃허브 이슈 기반, 복합 작업까지 정밀 검증 아마존웹서비스(AWS)가 4월 23일(현지시간) 인공지능(AI) 코딩 에이전트의 실질적 성능을 평가할 수 있는 다국어 벤치마크 'SWE-PolyBench'를 공개했다. 이 벤치마크는 기존 파이썬 중심의 평가 도구 한계를 극복하고, 현실적인 개발 환경에서 다양한 언어와 복합 업무 유형에 대한 AI의 실력을 정밀하게 검증하기 위해 마련됐다. Amazon introduces SWE-PolyBench, a multilingual benchmark for AI Coding Agents | Amazon Web ServicesCoding agents powered by large language models have shown.. 2025. 4. 30.
반응형