최적화된 컨테이너와 성능 향상으로 AI 워크로드 가속화
모듈식 드라이버 구조로 유연한 배포 환경 제공
AMD가 지난 4월 11일 최신 오픈소스 GPU 컴퓨팅 스택인 ROCm 6.4를 공식 출시하며 인공지능 및 고성능 컴퓨팅(HPC) 시장에서의 입지를 강화하고 있다. 이번 업데이트는 AMD Instinct GPU를 위한 사전 최적화된 컨테이너와 성능 개선을 통해 현대적 AI 워크로드의 효율적 처리를 지원하는 데 중점을 두었다.
ROCm 6.4의 가장 주목할 만한 특징은 AI 훈련 및 추론을 위한 최적화된 컨테이너 제공이다. 이 컨테이너들은 Llama 3.1, Gemma 3, DeepSeek 등 최신 대형 언어 모델(LLM)을 즉시 지원하도록 설계되어 연구자와 개발자들이 복잡한 설정 과정 없이 바로 작업을 시작할 수 있게 한다.
PyTorch 프레임워크에서는 Flex Attention, TopK, SDPA(Scaled Dot-Product Attention) 최적화를 통해 성능이 크게 향상되었다. 특히 TopK 향상으로 추론 속도가 3배 빨라져 LLM의 응답 시간이 단축되었으며, SDPA 최적화를 통해 긴 컨텍스트 시나리오에서 메모리 효율적인 LLM 추론이 가능해졌다.
Megatron-LM 프레임워크에서는 세 가지 새로운 퓨즈드 커널(Fused Attention, Fused Layer Norm, Fused ROPE)이 추가되어 트랜스포머 모델 훈련 속도가 향상되었다. 이러한 커널은 여러 작업을 단일 GPU 패스로 결합하여 처리 효율성을 높인다.
주요 기능 | 세부 내용 |
훈련 컨테이너 | PyTorch, Megatron-LM 지원, Llama 3.1, Llama 2, FLUX.1-dev 최적화 |
추론 컨테이너 | vLLM, SGLang 지원, Gemma 3, Llama, Mistral, DeepSeek R1 등 최적화 |
성능 향상 | TopK 3배 속도 향상, 최적화된 Flex Attention, SDPA 개선 |
시스템 지원 | Oracle Linux 9 추가, Radeon PRO W7800 48GB 검증 |
AMD 소프트웨어 아키텍트는 "ROCm 6.4는 단순한 소프트웨어 업데이트가 아닌 AI와 HPC 분야에서 가능성의 경계를 재정의하는 도약"이라며 "특히 모듈식 Instinct GPU 드라이버 도입으로 사용자들은 드라이버와 ROCm 사용자 공간을 독립적으로 업그레이드할 수 있어 안정성과 호환성이 크게 향상되었다"고 설명했다.
ROCm 6.4는 또한 쿠버네티스 환경에서의 GPU 워크로드 관리를 개선하기 위해 AMD GPU Operator를 강화했다. 자동화된 드라이버 업데이트, 실시간 텔레메트리, Red Hat OpenShift 4.16-4.17 및 Ubuntu 22.04/24.04에 대한 확장된 지원이 포함되어 있다.
"ROCm 6.4의 모듈식 아키텍처는 향후 12개월 동안의 전방 및 후방 호환성을 보장하여 소프트웨어 전환을 원활하게 만든다"고 AMD 개발자 관계 담당자는 언급했다.
한편, 이번 업데이트에서도 RDNA 4 GPU에 대한 공식 지원은 포함되지 않았다. 커뮤니티 회원들은 비공식적으로 RX 9070 시리즈와 같은 새로운 카드에서 ROCm 6.4가 실행될 수 있다고 보고하고 있지만, 공식 지원 없이는 RDNA 4의 향상된 FP16 처리량, INT4 스파시티 가속, FP8 기능 등이 ROCm 워크플로우에서 충분히 활용되지 못하고 있다.
AMD는 오는 6월 "Advancing AI" 이벤트를 통해 RDNA 4 통합에 대한 발표가 있을 것으로 예상된다. 향후 ROCm 업데이트에 대한 자세한 정보는 AMD 공식 웹사이트와 GitHub 저장소에서 확인할 수 있다.
Releases · ROCm/ROCm
AMD ROCm™ Software - GitHub Home. Contribute to ROCm/ROCm development by creating an account on GitHub.
github.com
ROCm 6.4.0 release notes — ROCm Documentation
ROCm 6.4.0 release notes Applies to Linux The release notes provide a summary of notable changes since the previous ROCm release. Note If you’re using Radeon™ PRO or Radeon GPUs in a workstation setting with a display connected, see the Use ROCm on Rad
rocm.docs.amd.com
'IT' 카테고리의 다른 글
"70% 크기, 100% 정확도: LLM 압축 기술의 혁신적 발전" (0) | 2025.04.27 |
---|---|
구글, 워크스페이스에 혁신적 AI 기능 대거 추가... "생산성 혁명 가속화" (3) | 2025.04.24 |
대학생 2명이 개발한 AI 음성 모델 'Dia', 구글의 NotebookLM에 도전장 (1) | 2025.04.23 |
Microsoft Copilot Studio, UI 자동화를 위한 '컴퓨터 사용' 기능 발표 (0) | 2025.04.21 |
OpenAI, Windsurf 인수 협상 중 - 30억 달러 규모 (0) | 2025.04.21 |