본문 바로가기

swepolybench1

AWS, '코딩 에이전트' 벤치마크 SWE-PolyBench 전격 공개 파이썬 한계 넘은 다국어·실전 환경 평가실제 깃허브 이슈 기반, 복합 작업까지 정밀 검증 아마존웹서비스(AWS)가 4월 23일(현지시간) 인공지능(AI) 코딩 에이전트의 실질적 성능을 평가할 수 있는 다국어 벤치마크 'SWE-PolyBench'를 공개했다. 이 벤치마크는 기존 파이썬 중심의 평가 도구 한계를 극복하고, 현실적인 개발 환경에서 다양한 언어와 복합 업무 유형에 대한 AI의 실력을 정밀하게 검증하기 위해 마련됐다. Amazon introduces SWE-PolyBench, a multilingual benchmark for AI Coding Agents | Amazon Web ServicesCoding agents powered by large language models have shown.. 2025. 4. 30.

이전 1 다음

티스토리툴바