반응형 멀티모달AI13 애플, 이미지 이해·생성 통합 멀티모달 AI 모델 '만사노' 공개 하이브리드 토크나이저 채택... 기존 모델의 '이해·생성 성능 상충' 문제 완화300M에서 30B까지 확장 가능... 벤치마크서 통합 모델 중 최고 수준 기록 애플 연구팀이 이미지 이해와 생성을 하나의 모델에서 모두 수행하는 통합 멀티모달 대규모 언어 모델(LLM)인 '만사노(Manzano)'를 공개했다. 이 모델은 기존 통합 모델들이 양쪽 기능 중 하나에서 성능 저하를 겪는 문제를 해소하기 위해 '하이브리드 비전 토크나이저'라는 새로운 구조를 도입한 것이 특징이다.최근 인공지능(AI) 분야에서는 텍스트뿐만 아니라 이미지, 음성 등 다양한 형태의 데이터를 처리하고 생성하는 멀티모달(Multimodal) AI 모델 개발이 활발하다. 그러나 이미지를 텍스트로 이해하는(Understanding) 과정과, 텍.. 2025. 9. 28. 알리바바, 멀티모달 AI 'Qwen3-Omni' 오픈소스 공개 텍스트·음성·이미지·영상 통합 처리…오픈소스 AI 생태계에 새바람실시간 음성 상호작용 가능…다국어 지원으로 활용성 극대화 알리바바 클라우드의 AI 연구팀인 콴원(Qwen)이 텍스트, 이미지, 오디오, 비디오를 모두 이해하고 실시간 음성으로 응답하는 옴니모달(omni-modal) 대규모 언어모델(LLM) 'Qwen3-Omni'를 오픈소스로 공개했다. 이는 폐쇄형 모델이 주도하던 멀티모달 AI 시장에서 오픈소스 모델의 새로운 가능성을 제시했다는 평가를 받고 있다.텍스트 넘어 멀티모달로…경계 허무는 AI최근 인공지능 분야는 단순히 텍스트를 처리하는 것을 넘어, 음성, 이미지, 영상을 복합적으로 이해하고 상호작용하는 멀티모달 기술 경쟁이 치열하다. 'Qwen3-Omni'는 이러한 흐름 속에서 텍스트와 비전, 오.. 2025. 9. 23. 딥브레인AI, 이미지 생성 AI 기능 추가 한국 AI의 또 다른 도전...딥브레인AI가 선보이는 멀티모달 서비스 확장딥브레인AI가 기존 서비스에 이미지 생성 AI 기능을 새롭게 추가했다. 이는 텍스트 기반 AI 서비스에서 멀티모달 AI 서비스로의 확장을 의미하며, "나노바나나처럼 편집에 유용"하다는 평가를 받고 있다. 딥브레인AI가 추가한 이미지 생성 기능은 단순히 이미지를 만드는 것을 넘어서 편집과 활용에 특화된 기능을 제공한다. 특히 "나노바나나처럼 편집에 유용"하다는 평가는 이 기능이 기존의 이미지 생성 AI들과 차별화된 실용성을 보여준다는 의미다. 사용자들이 생성한 이미지를 바로 편집하고 수정할 수 있는 통합된 워크플로우를 제공하는 것이 핵심이다. 이 기능은 텍스트 프롬프트를 통해 원하는 이미지를 생성할 수 있을 뿐만 아니라, 생성된 이미.. 2025. 9. 9. 알리바바, 매개변수 1조개 '큐원3-맥스' 공개...AI 모델 경쟁의 새로운 지평 열다 중국 AI의 도전장...알리바바가 미국 폐쇄형 모델과 맞서는 1조개 매개변수 AI 알리바바가 무려 1조개(1000B) 이상의 매개변수를 가진 새로운 플래그십 대형언어모델(LLM) '큐원3-맥스'를 공개했다. 이는 오픈 소스 AI 모델의 새로운 이정표를 세우는 동시에, 미국의 폐쇄형 모델들과 본격적인 경쟁을 예고하는 중요한 사건이다. 1조개 매개변수, AI 모델의 새로운 경계선큐원3-맥스는 알리바바가 개발한 최대 규모의 AI 모델로, 1조개 이상의 매개변수를 자랑한다. 이는 기존의 대부분 AI 모델들이 수백억 개 수준의 매개변수를 가진 것과 비교할 때 압도적인 규모다. 매개변수가 많을수록 모델의 복잡성과 성능이 향상되는 경향이 있어, 큐원3-맥스는 더욱 정교하고 정확한 AI 응답을 제공할 것으로 기대된다... 2025. 9. 9. 메타, 오디오 AI 스타트업 '웨이브폼즈' 인수 인간의 감정을 인식하는 AI 기술 확보… 멀티모달 기능 강화 기대새로운 '슈퍼인텔리전스 랩' 주축으로 라마 4.5 등 차세대 모델 개발 소셜 미디어 기업 메타(Meta)가 오디오 인공지능(AI) 스타트업 '웨이브폼즈(Waveforms)'를 인수하며 AI 기술 경쟁에 박차를 가하고 있다. 이번 인수는 메타의 차세대 AI 모델인 '라마 4.5(Llama 4.5)' 개발을 가속화하기 위한 전략적 행보로 풀이되며, 특히 인간의 음성에서 감정을 인식하고 모방하는 웨이브폼즈의 독보적인 기술을 활용할 것으로 예상된다. 메타는 최근 AI 조직을 '슈퍼인텔리전스 랩(Superintelligence Labs, MSL)'으로 재편하고, 그 산하에 'TBD 랩'이라는 특별 팀을 신설해 라마 4.5를 비롯한 차세대 모델 개발을.. 2025. 8. 9. xAI, 차세대 AI 모델 'Grok 4' 전격 공개 강화학습 가치 순위(RLVR) 기반 혁신 아키텍처, 압도적 성능 입증멀티모달 및 감성적 음성 인터페이스 'Eve' 탑재, 테슬라 통합 예고 일론 머스크가 이끄는 인공지능 스타트업 xAI가 7월 10일(한국 시간) 라이브 스트리밍 이벤트를 통해 차세대 플래그십 AI 모델 'Grok 4(그록 4)'를 전격 공개하며 인공지능 기술 지형에 강력한 지각 변동을 예고했다. "세계에서 가장 강력한 AI 모델"로 소개된 Grok 4는 공개와 동시에 주요 AI 벤치마크에서 OpenAI의 'o3', 구글의 '제미나이 2.5 프로', 앤트로픽의 '클로드 오퍼스 4' 등 현존하는 최상위 모델들을 모두 능가하는 압도적인 성능을 기록하며 기술적 우위를 증명했다. xAI의 Grok 4는 공신력 있는 벤치마크 결과를 통해 그 성능을.. 2025. 7. 11. 이전 1 2 3 다음 반응형