자율 패치 에이전트 구축 가능...취약점 대응 시간 44% 단축
SWE-bench 77.2% 달성, 코딩 및 에이전트 분야 최고 성능 입증
AI 전문 기업 앤트로픽(Anthropic)이 신규 대규모 언어 모델(LLM)인 ‘클로드 소넷 4.5’를 공개하며 사이버 보안 분야에서 혁신적인 성과를 발표했다. 이 모델은 특히 보안 취약점 탐지 정확도를 25% 높였으며, 평균 취약점 처리 시간을 44% 단축해 기업의 선제적 방어 체계를 강화할 전망이다.
클로드 소넷 4.5는 향상된 하이브리드 추론(Hybrid Reasoning) 능력을 바탕으로 취약점이 악용되기 전에 자율적으로 패치하는 에이전트 구축을 가능하게 한다. 이는 기존의 사후 대응적 탐지 방식을 넘어 능동적인 보안 강화를 지원하는 중요한 발전으로 평가받는다.
본 모델은 코딩 능력에서도 최고 성능을 입증했다. 실제 깃허브(GitHub) 풀 리퀘스트를 기반으로 문제를 해결하는 SWE-bench Verified 코딩 벤치마크에서 77.2%의 정확도를 기록했으며, 병렬 테스트 환경에서는 82%에 달하는 높은 수치를 보였다. 또한, 실제 컴퓨터 사용 과제를 평가하는 OSWorld 테스트에서도 61.4%의 성공률을 달성하며 최고의 컴퓨터 활용 모델로 자리매김했다.
앤트로픽은 소넷 4.5가 금융 분석, 연구 등 전문 분야에서 요구되는 신뢰성을 바탕으로 다수의 에이전트를 조율하고 대량의 데이터를 효과적으로 처리하는 데 탁월하다고 설명했다. 이는 복잡한 코딩 작업의 계획 및 해결 모두에서 강력한 성능을 제공하여 엔드투엔드 소프트웨어 개발 프로세스를 구동하는 데 이상적이라는 평가다.
'IT' 카테고리의 다른 글
알리바바, Qwen3 컴팩트 멀티모달 모델 공개…GPT-4o 등과 경쟁 (0) | 2025.10.05 |
---|---|
OpenAI, 삼성·SK와 ‘스타게이트’ 동맹…5천억 달러 AI 인프라 구축 가속 (0) | 2025.10.05 |
구글, 제미나이 2.5 플래시 이미지 일반 공개...10가지 화면 비율 지원 확대 (0) | 2025.10.05 |
Character.AI, 메타 출신 새 CEO 영입… “AI가 대화하는 방식 바꿀 것” (0) | 2025.10.01 |
OpenAI, ‘소라 2’ 모델과 ‘틱톡 대항마’ 소셜 앱 동시 출시 (0) | 2025.10.01 |