메타, Llama 4 벤치마크 점수 조작 의혹 부인

메타(Meta)의 생성형 AI 부문 부사장인 아마드 알-달레(Ahmad Al-Dahle)가 회사의 최신 AI 모델 성능 지표가 인위적으로 부풀려졌다는 의혹을 정면으로 부인했다.

알-달레 부사장은 7일 X(구 트위터)를 통해 "메타가 Llama 4 Maverick와 Scout 모델을 '테스트 세트'로 학습시켰다는 주장은 전혀 사실이 아니다"라고 밝혔다. AI 벤치마크에서 테스트 세트는 모델 학습 후 성능을 평가하는 데 사용되는 데이터 모음으로, 이를 학습에 사용할 경우 벤치마크 점수가 실제 성능보다 부풀려질 수 있다.

의혹의 시작

이번 논란은 주말 동안 중국 소셜 미디어에서 시작됐다. 한 사용자가 메타의 벤치마크 관행에 항의하며 사직했다고 주장하는 게시물을 올린 것이 X와 레딧을 통해 확산됐다. 특히 메타가 LM Arena 벤치마크에서 더 나은 점수를 얻기 위해 Maverick의 미공개 실험 버전을 사용했다는 사실이 알려지면서 의혹이 더욱 커졌다.

성능 차이 인정

알-달레 부사장은 여러 클라우드 제공업체에서 호스팅되는 Maverick와 Scout 모델의 성능이 "혼재된 품질"을 보이고 있다는 사용자들의 지적을 인정했다.

그는 "모델이 준비되자마자 출시했기 때문에, 모든 공개 구현이 최적화되기까지는 며칠이 걸릴 것으로 예상된다"며 "버그 수정과 파트너 온보딩 작업을 계속 진행할 것"이라고 설명했다.

연구자들은 공개적으로 다운로드 가능한 Maverick 버전과 LM Arena에서 호스팅되는 모델 간에 눈에 띄는 성능 차이가 있다고 지적하고 있다.

참고출처:

https://techcrunch.com/2025/04/07/meta-exec-denies-the-company-artificially-boosted-llama-4s-benchmark-scores/

Meta exec denies the company artificially boosted Llama 4's benchmark scores | TechCrunch

A Meta exec has denied a rumor that the company trained its AI models to present well on benchmarks while concealing the models' weaknesses.

techcrunch.com

저작자표시 비영리 (새창열림)

'IT' 카테고리의 다른 글

WordPress.com, 무료 AI 웹사이트 빌더 출시 (0)	2025.04.10
"일하지 마세요" 구글의 파격적인 AI 인재 붙잡기... 1년간 급여 주며 경쟁사 이직 막아 (0)	2025.04.09
메타, 첫 멀티모달 'Llama-4' 출시... EU만 쏙 뺐다 (0)	2025.04.07
OpenAI, GPT-5 출시 전략 대폭 수정...추론 모델 먼저 공개 (0)	2025.04.05
구글, AI 기반 차세대 사이버보안 모델 'Sec-Gemini v1' 공개 (0)	2025.04.05

달달한 하루

메타, Llama 4 벤치마크 점수 조작 의혹 부인

의혹의 시작

성능 차이 인정

'IT' 카테고리의 다른 글

티스토리툴바

메타, Llama 4 벤치마크 점수 조작 의혹 부인

의혹의 시작

성능 차이 인정

'IT' 카테고리의 다른 글

관련글

티스토리툴바