본문 바로가기
IT

메타, Llama 4 벤치마크 점수 조작 의혹 부인

by 카메라의눈 2025. 4. 8.
반응형

메타(Meta)의 생성형 AI 부문 부사장인 아마드 알-달레(Ahmad Al-Dahle)가 회사의 최신 AI 모델 성능 지표가 인위적으로 부풀려졌다는 의혹을 정면으로 부인했다.

Llama 4 벤치마크 점수
Image Credits: Bryce Durbin / TechCrunch

 

알-달레 부사장은 7일 X(구 트위터)를 통해 "메타가 Llama 4 Maverick와 Scout 모델을 '테스트 세트'로 학습시켰다는 주장은 전혀 사실이 아니다"라고 밝혔다. AI 벤치마크에서 테스트 세트는 모델 학습 후 성능을 평가하는 데 사용되는 데이터 모음으로, 이를 학습에 사용할 경우 벤치마크 점수가 실제 성능보다 부풀려질 수 있다.

반응형

의혹의 시작

이번 논란은 주말 동안 중국 소셜 미디어에서 시작됐다. 한 사용자가 메타의 벤치마크 관행에 항의하며 사직했다고 주장하는 게시물을 올린 것이 X와 레딧을 통해 확산됐다. 특히 메타가 LM Arena 벤치마크에서 더 나은 점수를 얻기 위해 Maverick의 미공개 실험 버전을 사용했다는 사실이 알려지면서 의혹이 더욱 커졌다.

 

성능 차이 인정

알-달레 부사장은 여러 클라우드 제공업체에서 호스팅되는 Maverick와 Scout 모델의 성능이 "혼재된 품질"을 보이고 있다는 사용자들의 지적을 인정했다.

 

그는 "모델이 준비되자마자 출시했기 때문에, 모든 공개 구현이 최적화되기까지는 며칠이 걸릴 것으로 예상된다"며 "버그 수정과 파트너 온보딩 작업을 계속 진행할 것"이라고 설명했다.

 

연구자들은 공개적으로 다운로드 가능한 Maverick 버전과 LM Arena에서 호스팅되는 모델 간에 눈에 띄는 성능 차이가 있다고 지적하고 있다.

 

참고출처:

https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/

 

Meta exec denies the company artificially boosted Llama 4's benchmark scores | TechCrunch

A Meta exec has denied a rumor that the company trained its AI models to present well on benchmarks while concealing the models' weaknesses.

techcrunch.com

 

 

반응형