본문 바로가기
IT

"70% 크기, 100% 정확도: LLM 압축 기술의 혁신적 발전"

by 카메라의눈 2025. 4. 27.
반응형
"Dynamic-Length Float (DFloat11) 기술로 LLM 크기 30% 감소"
"GPU 추론 효율성 향상, 메모리 사용량 최적화"

DFloat11
DFloat11

 

최근 AI 기술의 발전으로 Large Language Models (LLMs)의 크기가 급격히 증가하면서, 제한된 하드웨어 자원에서의 효율적인 배포가 중요한 과제로 떠오르고 있습니다. 이에 Tianyi Zhang과 그의 동료들이 개발한 Dynamic-Length Float (DFloat11) 기술이 주목받고 있습니다.

 

DFloat11은 LLM의 크기를 30%까지 줄이면서도 원본 모델과 동일한 출력을 제공하는 무손실 압축 프레임워크입니다. 이 기술은 BFloat16 가중치 표현의 낮은 엔트로피를 활용하여, 빈도에 기반한 동적 길이 인코딩을 적용함으로써 정보 최적화에 근접한 압축을 달성합니다.

반응형

GPU 추론을 위한 맞춤형 커널을 개발하여, 메모리 집약적인 룩업 테이블(LUTs)을 GPU SRAM에 맞는 컴팩트한 형태로 분해하고, 두 단계의 커널을 통해 스레드 읽기/쓰기 위치를 조정하는 등 다양한 최적화 기법을 적용했습니다.

 

실험 결과, Llama-3.1, Qwen-2.5, Gemma-3 등의 최신 모델에서 DFloat11은 약 30%의 모델 크기 감소를 달성하면서도 비트 단위의 정확한 출력을 유지했습니다. 특히, 압축되지 않은 모델의 일부를 CPU로 오프로딩하는 대안과 비교했을 때, 토큰 생성에서 1.9-38.8배 높은 처리량을 보였습니다.

 

고정된 GPU 메모리 예산에서 DFloat11은 압축되지 않은 모델보다 5.3-13.17배 더 긴 컨텍스트 길이를 가능하게 했으며, 810GB 크기의 Llama-3.1-405B 모델을 8x80GB GPU가 장착된 단일 노드에서 무손실 추론할 수 있게 했습니다.

 

 

참고 링크

 

GitHub - LeanModels/DFloat11

Contribute to LeanModels/DFloat11 development by creating an account on GitHub.

github.com

 

 

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

Large Language Models (LLMs) have grown rapidly in size, creating significant challenges for efficient deployment on resource-constrained hardware. In this paper, we introduce Dynamic-Length Float (DFloat11), a lossless compression framework that reduces L

arxiv.org

 

 

반응형