본문 바로가기
IT

AWS, '코딩 에이전트' 벤치마크 SWE-PolyBench 전격 공개

by 카메라의눈 2025. 4. 30.
반응형
파이썬 한계 넘은 다국어·실전 환경 평가
실제 깃허브 이슈 기반, 복합 작업까지 정밀 검증

SWE-PolyBench
SWE-PolyBench

 

아마존웹서비스(AWS)가 4월 23일(현지시간) 인공지능(AI) 코딩 에이전트의 실질적 성능을 평가할 수 있는 다국어 벤치마크 'SWE-PolyBench'를 공개했다. 이 벤치마크는 기존 파이썬 중심의 평가 도구 한계를 극복하고, 현실적인 개발 환경에서 다양한 언어와 복합 업무 유형에 대한 AI의 실력을 정밀하게 검증하기 위해 마련됐다.

 

 

Amazon introduces SWE-PolyBench, a multilingual benchmark for AI Coding Agents | Amazon Web Services

Coding agents powered by large language models have shown impressive capabilities in software engineering tasks, but evaluating their performance across diverse programming languages and real-world scenarios remains challenging. This led to a recent explos

aws.amazon.com

 

SWE-PolyBench는 자바, 자바스크립트, 타입스크립트, 파이썬 등 4개 언어에서 총 2,110건의 실제 깃허브 이슈 기반 문제를 포함한다. 이 중 500건은 빠른 실험을 위한 하위 세트(SWE-PolyBench500)로 제공된다. 기존 SWE-Bench가 파이썬과 버그 수정에 치중된 데 비해, AWS의 새 벤치마크는 기능 추가, 코드 리팩토링 등 다양한 과제 유형을 포함해 평가 범위를 대폭 확장했다.

 

아마존은 공개된 오픈소스 코딩 에이전트를 대상으로 SWE-PolyBench를 실험한 결과, 파이썬에서 가장 높은 성공률(24.1%)을 기록했으나, 언어별·과제별로 성능 격차가 뚜렷하게 나타났다고 밝혔다. 특히 세 개 이상의 파일을 동시에 수정해야 하는 복잡한 작업에서는 성공률이 급격히 낮아지는 등, 실제 개발 환경에서의 한계도 드러났다.

 

아누프 데오라스 AWS 생성형 AI 애플리케이션 디렉터는 "현실 세계의 소프트웨어 문제는 여러 파일에 동시에 접근해야 해결이 가능하다"며, "SWE-PolyBench는 단순 패스율뿐 아니라 파일 식별, 코드 구조 분석 등 정밀 지표를 통해 AI 코딩 도구의 진짜 역량을 평가할 수 있다"고 밝혔다.

반응형

다음은 SWE-PolyBench의 주요 일정 및 개요 표다.

구분 내용
공개일 2025년 4월 23일
평가 언어 Python(199), Java(165), JavaScript(1,017), TypeScript(729)
문제 수 총 2,110건(실험용 500건 별도 제공)
과제 유형 버그 수정, 기능 추가, 리팩토링 등
평가 지표 패스율, 파일 식별 정확도, 코드 구조 분석 등
데이터 출처 실제 깃허브 오픈소스 이슈 기반
공개 방식 허깅페이스(Hugging Face)·깃허브(GitHub) 데이터, 리더보드 운영

 

SWE-PolyBench는 AI 코딩 도구의 실질적 기술역량을 가늠할 수 있는 새로운 기준점으로 평가받고 있다. AWS는 향후 지원 언어와 과제 유형을 지속적으로 확장해, SWE-PolyBench를 AI 코딩 평가의 글로벌 표준으로 발전시킬 계획이다.

 

향후 SWE-PolyBench의 리더보드와 데이터셋은 허깅페이스 및 깃허브를 통해 누구나 확인할 수 있다. 추가 정보 및 실험 참여는 AWS 공식 블로그와 SWE-PolyBench 리더보드를 참고하면 된다.

반응형