본문 바로가기

멀티모달AI7

구글, AI 모델 성능 비교 위한 오픈소스 'LMEval' 프레임워크 공개 GPT-4o부터 Claude까지, 통합 벤치마킹으로 AI 모델 객관적 평가 가능멀티모달 지원과 안전성 분석 기능으로 차세대 AI 개발 가속화 구글이 대형 언어 모델과 멀티모달 AI 모델의 성능을 표준화된 방식으로 비교 평가할 수 있는 오픈소스 프레임워크 'LMEval'을 공개했다고 26일 발표했다. 이 도구를 통해 연구자와 개발자들은 GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash, Llama-3.1-405B 등 서로 다른 회사의 AI 모델들을 동일한 기준으로 체계적으로 평가할 수 있게 됐다.AI 모델 비교의 새로운 표준 제시그동안 AI 업계에서는 각 기업이 자체적인 API와 데이터 형식, 벤치마크 설정을 사용해 모델 간 객관적 비교가 어려웠다. 구글은 "LMEval이 이러.. 2025. 5. 27.
구글, 초강력 AI 모델 'Gemini 2.5 Pro' 출시...경쟁사 AI 모델 압도 생각하는 AI, 100만 토큰 처리 능력으로 새 시대 열어안전성 보고서 미공개로 비판 직면, 가격 정책도 논란 구글이 3월 말 자사 AI 모델 중 가장 강력한 Gemini 2.5 Pro를 출시했다. '생각하는 모델(thinking model)'로 불리는 이 AI는 응답 전 추론 과정을 거쳐 정확도를 높인 것이 특징이다. 특히 코딩, 수학, 과학 분야 벤치마크 테스트에서 경쟁사 모델들을 압도하는 성능을 보여주며 AI 기술 경쟁에서 구글의 입지를 강화했다. "Gemini 2.5 Pro는 복잡한 문제를 분석하고, 논리적 결론을 도출하며, 맥락과 뉘앙스를 고려해 정보에 기반한 결정을 내리는 능력을 갖추고 있습니다"라고 구글은 공식 블로그를 통해 밝혔다.압도적 성능의 차세대 AI 모델이번에 출시된 Gemini 2.. 2025. 4. 15.
OpenAI, GPT-4.1 및 소형 모델 출시 예정..."추론 모델도 함께 선보여" 멀티모달 기능 강화된 GPT-4.1과 추론 특화 모델 o3, o4 mini 출시 준비 OpenAI가 차세대 AI 모델인 GPT-4.1과 함께 두 가지 추론 특화 모델 o3, o4 mini를 출시할 예정이라고 The Verge가 보도했다.이번에 출시될 GPT-4.1은 작년 선보인 GPT-4o의 업그레이드 버전으로, 텍스트, 오디오, 이미지를 실시간으로 처리하는 멀티모달 기능이 한층 강화될 전망이다. OpenAI는 이와 함께 'GPT-4.1 mini'와 'GPT-4.1 nano'라는 경량화 버전도 함께 선보일 계획이다. OpenAI는 GPT-4.1 외에도 추론에 특화된 'o3' 모델의 정식 버전과 이의 경량화 버전인 'o4 mini'도 출시를 준비 중이다. 특히 o4 mini가 먼저 출시될 것으로 예상되며,.. 2025. 4. 14.
Anthropic의 새로운 Claude Hybrid LLM: AI 추론의 도약 'Claude 3.5 Sonnet' 기반 혁신적 리소스 할당 시스템 선보여...기업용 생성형 AI 시장 공략 가속화 인공지능 스타트업 Anthropic이 2월 14일(현지시각) 기존 대형언어모델(LLM)의 한계를 뛰어넘는 하이브리드 AI 모델을 발표했다. 이 모델은 사용자가 질문의 복잡도에 따라 컴퓨팅 리소스를 유동적으로 조절할 수 있는 '가변형 추론 스케일'을 도입, 단순 질문 처리 시 기존 모델 대비 2배 빠른 응답 속도를 구현했으며 복잡한 프로그래밍 과제에서는 경쟁사 모델을 능가하는 성능을 보였다."이번 혁신은 AI가 인간의 사고 방식을 모방하는 데서 한 단계 진화했다는 의미를 지닙니다."- 제임스 클라프 Anthropic 공동창립자 겸 CTO 2024년 3월 공개된 Claude 3 시리즈의 후속 .. 2025. 2. 14.
"딥시크보다 저렴해요" 구글, 차세대 AI '제미니 2.0' 전면 출시 가격 경쟁력·향상된 추론 능력 강화…"에이전트 시대 본격화"1M 토큰당 $0.075부터…中 딥시크 R1과의 가격 경쟁 주목  2025년 2월 5일, 구글이 차세대 AI 모델 제미니 2.0 시리즈를 전면 출시하며 생성형 AI 시장 경쟁에 새로운 지각변동을 예고했습니다. 특히 이번 출시에서 눈에 띄는 점은 ▲2백만 토큰 초대형 컨텍스트 윈도우 ▲실시간 코드 실행 기능 ▲중국계 AI 스타트업 딥시크(DeepSeek) 대비 경쟁력 있는 가격 정책입니다. 테크 업계는 "생산비 50% 절감 효과"(ABI 리서치)를 내세우는 구글의 공세가 글로벌 AI 시장 재편을 이끌 것이라 분석하고 있습니다.1. 가격 경쟁력: "딥시크 R1 대비 최대 30% 절약 가능"모델입력 토큰(1M)출력 토큰(1M)컨텍스트 윈도우제미니 2... 2025. 2. 12.
알리바바, GPT-4 능가하는 AI 모델 '큐원 2.5-맥스' 공개... 중국 AI 굴기 가속화 20조 개 토큰으로 학습한 '큐원 2.5-맥스', GPT-4와 딥시크-V3 성능 뛰어넘어MoE 아키텍처 도입으로 효율성 극대화... 글로벌 AI 시장 판도 변화 예고 중국 IT 공룡 알리바바가 새로운 인공지능(AI) 모델 '큐원(Qwen) 2.5-맥스'를 공개하며 글로벌 AI 시장에 지각변동을 예고했다. 알리바바는 이 모델이 오픈AI의 GPT-4와 중국 스타트업 딥시크의 최신 모델을 능가하는 성능을 보인다고 주장해 주목받고 있다. 알리바바 클라우드는 중국 춘제(春節·설날) 당일인 2025년 1월 29일, 소셜미디어 공식 계정을 통해 '큐원 2.5-맥스' 출시 소식을 발표했다. 이 모델은 20조 개 이상의 토큰으로 사전 훈련을 받았으며, 오픈AI의 GPT-4o, 딥시크-V3, 메타의 라마(LLaMA)-3... 2025. 2. 5.