본문 바로가기
반응형

멀티모달AI11

딥브레인AI, 이미지 생성 AI 기능 추가 한국 AI의 또 다른 도전...딥브레인AI가 선보이는 멀티모달 서비스 확장딥브레인AI가 기존 서비스에 이미지 생성 AI 기능을 새롭게 추가했다. 이는 텍스트 기반 AI 서비스에서 멀티모달 AI 서비스로의 확장을 의미하며, "나노바나나처럼 편집에 유용"하다는 평가를 받고 있다. 딥브레인AI가 추가한 이미지 생성 기능은 단순히 이미지를 만드는 것을 넘어서 편집과 활용에 특화된 기능을 제공한다. 특히 "나노바나나처럼 편집에 유용"하다는 평가는 이 기능이 기존의 이미지 생성 AI들과 차별화된 실용성을 보여준다는 의미다. 사용자들이 생성한 이미지를 바로 편집하고 수정할 수 있는 통합된 워크플로우를 제공하는 것이 핵심이다. 이 기능은 텍스트 프롬프트를 통해 원하는 이미지를 생성할 수 있을 뿐만 아니라, 생성된 이미.. 2025. 9. 9.
알리바바, 매개변수 1조개 '큐원3-맥스' 공개...AI 모델 경쟁의 새로운 지평 열다 중국 AI의 도전장...알리바바가 미국 폐쇄형 모델과 맞서는 1조개 매개변수 AI 알리바바가 무려 1조개(1000B) 이상의 매개변수를 가진 새로운 플래그십 대형언어모델(LLM) '큐원3-맥스'를 공개했다. 이는 오픈 소스 AI 모델의 새로운 이정표를 세우는 동시에, 미국의 폐쇄형 모델들과 본격적인 경쟁을 예고하는 중요한 사건이다. 1조개 매개변수, AI 모델의 새로운 경계선큐원3-맥스는 알리바바가 개발한 최대 규모의 AI 모델로, 1조개 이상의 매개변수를 자랑한다. 이는 기존의 대부분 AI 모델들이 수백억 개 수준의 매개변수를 가진 것과 비교할 때 압도적인 규모다. 매개변수가 많을수록 모델의 복잡성과 성능이 향상되는 경향이 있어, 큐원3-맥스는 더욱 정교하고 정확한 AI 응답을 제공할 것으로 기대된다... 2025. 9. 9.
메타, 오디오 AI 스타트업 '웨이브폼즈' 인수 인간의 감정을 인식하는 AI 기술 확보… 멀티모달 기능 강화 기대새로운 '슈퍼인텔리전스 랩' 주축으로 라마 4.5 등 차세대 모델 개발 소셜 미디어 기업 메타(Meta)가 오디오 인공지능(AI) 스타트업 '웨이브폼즈(Waveforms)'를 인수하며 AI 기술 경쟁에 박차를 가하고 있다. 이번 인수는 메타의 차세대 AI 모델인 '라마 4.5(Llama 4.5)' 개발을 가속화하기 위한 전략적 행보로 풀이되며, 특히 인간의 음성에서 감정을 인식하고 모방하는 웨이브폼즈의 독보적인 기술을 활용할 것으로 예상된다. 메타는 최근 AI 조직을 '슈퍼인텔리전스 랩(Superintelligence Labs, MSL)'으로 재편하고, 그 산하에 'TBD 랩'이라는 특별 팀을 신설해 라마 4.5를 비롯한 차세대 모델 개발을.. 2025. 8. 9.
xAI, 차세대 AI 모델 'Grok 4' 전격 공개 강화학습 가치 순위(RLVR) 기반 혁신 아키텍처, 압도적 성능 입증멀티모달 및 감성적 음성 인터페이스 'Eve' 탑재, 테슬라 통합 예고 일론 머스크가 이끄는 인공지능 스타트업 xAI가 7월 10일(한국 시간) 라이브 스트리밍 이벤트를 통해 차세대 플래그십 AI 모델 'Grok 4(그록 4)'를 전격 공개하며 인공지능 기술 지형에 강력한 지각 변동을 예고했다. "세계에서 가장 강력한 AI 모델"로 소개된 Grok 4는 공개와 동시에 주요 AI 벤치마크에서 OpenAI의 'o3', 구글의 '제미나이 2.5 프로', 앤트로픽의 '클로드 오퍼스 4' 등 현존하는 최상위 모델들을 모두 능가하는 압도적인 성능을 기록하며 기술적 우위를 증명했다. xAI의 Grok 4는 공신력 있는 벤치마크 결과를 통해 그 성능을.. 2025. 7. 11.
구글, AI 모델 성능 비교 위한 오픈소스 'LMEval' 프레임워크 공개 GPT-4o부터 Claude까지, 통합 벤치마킹으로 AI 모델 객관적 평가 가능멀티모달 지원과 안전성 분석 기능으로 차세대 AI 개발 가속화 구글이 대형 언어 모델과 멀티모달 AI 모델의 성능을 표준화된 방식으로 비교 평가할 수 있는 오픈소스 프레임워크 'LMEval'을 공개했다고 26일 발표했다. 이 도구를 통해 연구자와 개발자들은 GPT-4o, Claude 3.7 Sonnet, Gemini 2.0 Flash, Llama-3.1-405B 등 서로 다른 회사의 AI 모델들을 동일한 기준으로 체계적으로 평가할 수 있게 됐다.AI 모델 비교의 새로운 표준 제시그동안 AI 업계에서는 각 기업이 자체적인 API와 데이터 형식, 벤치마크 설정을 사용해 모델 간 객관적 비교가 어려웠다. 구글은 "LMEval이 이러.. 2025. 5. 27.
구글, 초강력 AI 모델 'Gemini 2.5 Pro' 출시...경쟁사 AI 모델 압도 생각하는 AI, 100만 토큰 처리 능력으로 새 시대 열어안전성 보고서 미공개로 비판 직면, 가격 정책도 논란 구글이 3월 말 자사 AI 모델 중 가장 강력한 Gemini 2.5 Pro를 출시했다. '생각하는 모델(thinking model)'로 불리는 이 AI는 응답 전 추론 과정을 거쳐 정확도를 높인 것이 특징이다. 특히 코딩, 수학, 과학 분야 벤치마크 테스트에서 경쟁사 모델들을 압도하는 성능을 보여주며 AI 기술 경쟁에서 구글의 입지를 강화했다. "Gemini 2.5 Pro는 복잡한 문제를 분석하고, 논리적 결론을 도출하며, 맥락과 뉘앙스를 고려해 정보에 기반한 결정을 내리는 능력을 갖추고 있습니다"라고 구글은 공식 블로그를 통해 밝혔다.압도적 성능의 차세대 AI 모델이번에 출시된 Gemini 2.. 2025. 4. 15.
반응형