본문 바로가기
IT

구글 AI, Gemma 4 전용 ‘멀티 토큰 예측(MTP) 드래프터’ 공개… “품질 저하 없이 추론 속도 3배 향상”

by 카메라의눈 2026. 5. 7.
반응형

대규모 언어 모델(LLM)의 고질적인 문제였던 ‘느린 추론 속도’를 해결할 획기적인 기술이 공개되었습니다. 구글은 최신 Gemma 4 모델 제품군을 위한 멀티 토큰 예측(Multi-Token Prediction, 이하 MTP) 드래프터를 출시했다고 발표했습니다. 이 기술은 출력 품질을 유지하면서도 추론 속도를 최대 3배까지 끌어올려 AI 업계의 이목을 집중시키고 있습니다.

LLM의 병목 현상, ‘메모리 대역폭’을 정조준하다

현재 대부분의 LLM은 한 번에 하나의 토큰만 생성하는 자기회귀(Autoregressive) 방식을 사용합니다. 이 과정에서 수십억 개의 매개변수를 비디오 메모리(VRAM)에서 연산 장치로 매번 로드해야 하는데, 이때 발생하는 메모리 대역폭 병목 현상이 추론 속도를 저하시키는 주범으로 지목되어 왔습니다.

구글이 이번에 도입한 MTP 드래프터는 이러한 물리적 한계를 극복하기 위해 ‘추측적 디코딩(Speculative Decoding)’ 아키텍처를 기반으로 설계되었습니다.

MTP 드래프터의 핵심 원리: ‘제안’과 ‘검증’의 협업

MTP 파이프라인은 가벼운 ‘드래프터 모델’과 무거운 ‘타겟 모델(Gemma 4)’이 짝을 이루어 작동합니다.

  1. 초고속 제안: 작고 빠른 드래프터 모델이 다음에 올 여러 토큰을 한꺼번에 예측하여 ‘드래프트(초안)’ 시퀀스를 생성합니다.
  2. 병렬 검증: 대형 타겟 모델은 이 초안을 단일 순방향 패스에서 한 번에 검증합니다.
  3. 손실 없는 가속: 타겟 모델이 드래프트를 승인하면 전체 시퀀스가 확정되며, 타겟 모델의 최종 검증을 거치기 때문에 결과물은 기존 방식과 100% 동일한 품질을 유지합니다.

이 기술의 실제 성능 향상 폭은 아래 차트를 통해 확인할 수 있습니다.

Gemma 4
(그림 1) 구글이 공개한 Gemma 4 모델 및 하드웨어별 MTP 드래프터 사용 시 추론 속도 향상치. NVIDIA A100 환경에서 최대 3배의 속도 향상을 보여준다.

 

특히 이번 MTP 드래프터는 드래프터와 타겟 모델이 KV 캐시(Key-Value Cache)와 활성화 값을 공유하도록 설계되어, 중복 계산을 없애고 효율성을 극대화한 것이 특징입니다.

반응형

엣지 디바이스부터 서버급 GPU까지, 전방위적 성능 향상

이번 발표에서는 하드웨어별 최적화 성과도 함께 공개되었습니다.

  • 모바일 및 엣지: 저사양 기기용 모델인 E2B 및 E4B에는 ‘임베더 클러스터링’ 기법을 적용하여 로짓 계산 병목을 해결했습니다.
  • 데스크톱 및 서버: Apple Silicon 환경에서는 배치 크기에 따라 최대 2.2배, NVIDIA A100 환경에서는 최대 3배의 속도 향상이 관찰되었습니다.

오픈 소스 생태계로의 확산

구글은 이번 MTP 드래프터를 Apache 2.0 라이선스 하에 오픈 소스로 공개했습니다. 현재 Hugging FaceKaggle을 통해 모델 가중치와 기술 사양을 확인할 수 있어, 개발자들은 자신의 프로젝트에 즉시 이 가속 기술을 도입할 수 있게 되었습니다.

Gemma 4가 출시 직후 6,000만 다운로드를 기록하며 순항 중인 가운데, 이번 MTP 드래프터 출시는 온디바이스 AI와 실시간 서비스 분야에서 Gemma 4의 입지를 더욱 공고히 할 것으로 전망됩니다.


[참고 자료]

반응형