xAI, 차세대 AI 모델 'Grok 4' 전격 공개

강화학습 가치 순위(RLVR) 기반 혁신 아키텍처, 압도적 성능 입증
멀티모달 및 감성적 음성 인터페이스 'Eve' 탑재, 테슬라 통합 예고

일론 머스크가 이끄는 인공지능 스타트업 xAI가 7월 10일(한국 시간) 라이브 스트리밍 이벤트를 통해 차세대 플래그십 AI 모델 'Grok 4(그록 4)'를 전격 공개하며 인공지능 기술 지형에 강력한 지각 변동을 예고했다. "세계에서 가장 강력한 AI 모델"로 소개된 Grok 4는 공개와 동시에 주요 AI 벤치마크에서 OpenAI의 'o3', 구글의 '제미나이 2.5 프로', 앤트로픽의 '클로드 오퍼스 4' 등 현존하는 최상위 모델들을 모두 능가하는 압도적인 성능을 기록하며 기술적 우위를 증명했다.

xAI의 Grok 4는 공신력 있는 벤치마크 결과를 통해 그 성능을 객관적으로 입증했다. 독립 AI 평가 기관인 '아티피셜 애널리시스(Artificial Analysis)'가 발표한 AI 지능지수(Intelligence Index)에서 Grok 4는 73점을 기록하며, 경쟁 모델들을 앞섰다. 특히 고도의 추론 능력을 요구하는 벤치마크에서 두각을 나타냈는데, 대학원 수준의 질문에 답하는 GPQA 다이아몬드에서 88%, 미국 수학경시대회 수준의 AIME 2024에서 94%, 다중 작업 언어 이해 능력을 평가하는 MMLU-Pro에서 87%라는 경이로운 점수를 기록했다.

'인류의 마지막 시험(Humanity's Last Exam)'에서는 도구 사용 없이 24.0%의 정답률을 보여 기존 최고 기록을 경신했으며, 시각적 패턴을 식별하는 추상적 추론 능력 테스트인 ARC-AGI-2에서는 16.2%를 획득하여 새로운 기술 수준(state-of-the-art)을 달성했다.

주요 AI 모델 벤치마크 성능 비교 (2025년 7월 기준)

벤치마크 (Benchmark)	Grok 4	Grok 4 Heavy (with tools)	Gemini 2.5 Pro	OpenAI o3 (high)	Claude Opus 4
AI 지능지수 (Intelligence Index)	73	-	70	70	64
GPQA Diamond (Graduate-Level Q&A)	88%	-	-	-	-
AIME 2024 (Math Competition)	94%	-	-	-	-
MMLU-Pro (Multitask Language Understanding)	87%	-	-	-	-
Humanity’s Last Exam (without tools)	24.0%	-	21.6%	21.0%	-
Humanity’s Last Exam (with tools)	-	44.4%	26.9%	-	-
ARC-AGI-2 (Abstract Reasoning)	16.2%	-	-	-	~8.5%

Grok 4의 획기적인 성능 향상은 '강화학습 가치 순위(RLVR, Reinforcement Learning Value Ranking)'로 명명된 독자적인 아키텍처에 기반한다. xAI는 이전 모델 대비 강화학습(RL)에 10배 더 많은 컴퓨팅 자원을 할당하는 공격적인 전략을 통해 추론 및 문제 해결 능력을 극대화했다.

또한, 최대 256,000 토큰에 달하는 컨텍스트 창, 텍스트와 이미지를 동시에 처리하는 멀티모달 기능, 그리고 'Eve'라는 새로운 감성적 음성 인터페이스를 탑재하여 사용자 경험의 폭을 넓혔다. 'Eve'는 라이브 데모에서 긴장한 엔지니어를 부드럽게 격려하고 즉석에서 오페라 아리아를 생성하는 등 뛰어난 감성 표현 능력을 선보여 주목받았다. 다만, 일부 분석가들은 과도한 RLVR 투자로 인한 수학 및 코딩 분야의 '과적합(overfitting)' 징후를 지적하며 향후 개선 과제로 언급했다.

xAI는 단일 모델이 아닌, 사용자의 요구와 지불 능력에 따라 세분화된 모델 라인업과 가격 정책을 제시했다. 기본 모델인 Grok 4와 함께, 다중 에이전트 기술을 적용하여 복잡성을 한층 높인 'Grok 4 Heavy' 모델을 선보였다. 구독 등급은 Basic(무료), SuperGrok(연간 300달러 또는 월 30달러), 그리고 프리미엄 기업용 플랜인 SuperGrok Heavy(연간 3,000달러 또는 월 300달러)로 나뉜다.

개발자를 위한 API 가격은 입력 토큰 100만 개당 3달러, 출력 토큰 100만 개당 15달러로 책정되었으며, 캐시된 입력 토큰은 100만 개당 0.75달러로 효율적인 개발을 장려한다. Grok 4는 현재 xAI API, X 플랫폼의 챗봇, 마이크로소프트 애저(Azure) 기반의 AI 파운드리를 통해 이용 가능하며, 일론 머스크는 "Grok이 아주 곧 테슬라 차량에 탑재될 것"이라고 밝혀 자동차 산업에 미칠 파급 효과에 대한 기대감을 높였다.

Grok 4의 화려한 데뷔 이면에는 지난 Grok 3 버전의 논란과 시장의 엇갈린 반응도 존재한다. Grok 3의 부적절한 발언 논란 이후 xAI는 시스템 프롬프트 개선 등 재발 방지를 위한 노력을 기울이고 있다. 시장에서는 xAI가 강화학습 컴퓨팅을 공격적으로 확장하는 전략이 효과를 보고 있다는 긍정적인 평가와 함께, 구체적인 기술적 세부 정보 공개 부족에 대한 신중론도 제기되고 있다. 이러한 논란 속에서도 xAI는 2025년 8월 AI 코딩 전문 모델, 9월 멀티모달 에이전트, 10월 비디오 생성 모델 출시 등 숨 가쁜 로드맵을 공개하며 기술 개발을 이어갈 것임을 분명히 했다.

멤피스에 구축 중인 세계 최대 규모의 AI 슈퍼컴퓨터 '콜로서스(Colossus)'의 막대한 컴퓨팅 파워를 기반으로, Grok 4는 AI 시장의 경쟁 구도를 재편하고 기술 발전의 속도를 한 단계 끌어올리는 중요한 변곡점이 될 것으로 보인다.

https://x.com/xai/status/1943158495588815072

X의 xAI님(@xai)

Introducing Grok 4, the world's most powerful AI model. Watch the livestream now: https://t.co/59iDX5s2ck

x.com

참고링크: 관련 정보는 [xAI 공식 발표 및 아티피셜 애널리시스 보고서]를 참조

저작자표시 비영리 (새창열림)

'IT' 카테고리의 다른 글

유튜브 AI 버튜버 돌풍…인기 순위 상위 20위 중 2개 채널 진입 (4)	2025.07.12
네이버클라우드 "소버린 AI, 한국 넘어 글로벌 확산 핵심 전략" (0)	2025.07.12
마이크로소프트, 윈도우 10 무료 확장 보안 업데이트 제공… 2025년 10월 지원 종료 대비 (0)	2025.07.10
삼성, 3단 접이식 휴대폰 '갤럭시 G 폴드' 출시 임박 (1)	2025.07.10
Perplexity, AI 기반 웹 브라우저 'Comet' 출시… 구글 검색에 도전장 (1)	2025.07.10

달달한 하루

xAI, 차세대 AI 모델 'Grok 4' 전격 공개

주요 AI 모델 벤치마크 성능 비교 (2025년 7월 기준)

'IT' 카테고리의 다른 글

티스토리툴바

xAI, 차세대 AI 모델 'Grok 4' 전격 공개

주요 AI 모델 벤치마크 성능 비교 (2025년 7월 기준)

'IT' 카테고리의 다른 글

관련글

티스토리툴바