본문 바로가기
반응형

멀티모달AI14

구글 딥마인드, ‘비전 바나나’ 공개…이미지 생성 AI가 시각 이해까지 수행 객체 분할·깊이 추정 등 2D·3D 비전 과제에서 전문 모델과 경쟁 구글 딥마인드 연구진이 이미지 생성 모델을 기반으로 시각 이해 작업까지 수행하는 통합 모델 ‘비전 바나나’를 공개했다. 연구진은 이미지 생성 학습이 대형언어모델의 사전학습처럼 시각 세계에 대한 일반화된 표현을 형성할 수 있다고 설명했다. 비전 바나나는 나노 바나나 프로를 기반으로 소량의 시각 과제 데이터를 추가 학습해 만들어졌다. 비전 바나나는 이미지 속 서로 다른 사물을 색으로 구분하는 의미론적 분할, 같은 종류의 사물을 개별적으로 나누는 객체 분할, 사진 속 물체의 깊이를 추정하는 3D 이해 작업 등을 수행한다. 매일경제 보도에 따르면 기존에는 이런 작업을 위해 각 기능에 특화된 별도 비전 모델을 사용하는 경우가 많았지만, 비전 바.. 2026. 4. 26.
애플, 이미지 이해·생성 통합 멀티모달 AI 모델 '만사노' 공개 하이브리드 토크나이저 채택... 기존 모델의 '이해·생성 성능 상충' 문제 완화300M에서 30B까지 확장 가능... 벤치마크서 통합 모델 중 최고 수준 기록 애플 연구팀이 이미지 이해와 생성을 하나의 모델에서 모두 수행하는 통합 멀티모달 대규모 언어 모델(LLM)인 '만사노(Manzano)'를 공개했다. 이 모델은 기존 통합 모델들이 양쪽 기능 중 하나에서 성능 저하를 겪는 문제를 해소하기 위해 '하이브리드 비전 토크나이저'라는 새로운 구조를 도입한 것이 특징이다.최근 인공지능(AI) 분야에서는 텍스트뿐만 아니라 이미지, 음성 등 다양한 형태의 데이터를 처리하고 생성하는 멀티모달(Multimodal) AI 모델 개발이 활발하다. 그러나 이미지를 텍스트로 이해하는(Understanding) 과정과, 텍.. 2025. 9. 28.
알리바바, 멀티모달 AI 'Qwen3-Omni' 오픈소스 공개 텍스트·음성·이미지·영상 통합 처리…오픈소스 AI 생태계에 새바람실시간 음성 상호작용 가능…다국어 지원으로 활용성 극대화 알리바바 클라우드의 AI 연구팀인 콴원(Qwen)이 텍스트, 이미지, 오디오, 비디오를 모두 이해하고 실시간 음성으로 응답하는 옴니모달(omni-modal) 대규모 언어모델(LLM) 'Qwen3-Omni'를 오픈소스로 공개했다. 이는 폐쇄형 모델이 주도하던 멀티모달 AI 시장에서 오픈소스 모델의 새로운 가능성을 제시했다는 평가를 받고 있다.텍스트 넘어 멀티모달로…경계 허무는 AI최근 인공지능 분야는 단순히 텍스트를 처리하는 것을 넘어, 음성, 이미지, 영상을 복합적으로 이해하고 상호작용하는 멀티모달 기술 경쟁이 치열하다. 'Qwen3-Omni'는 이러한 흐름 속에서 텍스트와 비전, 오.. 2025. 9. 23.
딥브레인AI, 이미지 생성 AI 기능 추가 한국 AI의 또 다른 도전...딥브레인AI가 선보이는 멀티모달 서비스 확장딥브레인AI가 기존 서비스에 이미지 생성 AI 기능을 새롭게 추가했다. 이는 텍스트 기반 AI 서비스에서 멀티모달 AI 서비스로의 확장을 의미하며, "나노바나나처럼 편집에 유용"하다는 평가를 받고 있다. 딥브레인AI가 추가한 이미지 생성 기능은 단순히 이미지를 만드는 것을 넘어서 편집과 활용에 특화된 기능을 제공한다. 특히 "나노바나나처럼 편집에 유용"하다는 평가는 이 기능이 기존의 이미지 생성 AI들과 차별화된 실용성을 보여준다는 의미다. 사용자들이 생성한 이미지를 바로 편집하고 수정할 수 있는 통합된 워크플로우를 제공하는 것이 핵심이다. 이 기능은 텍스트 프롬프트를 통해 원하는 이미지를 생성할 수 있을 뿐만 아니라, 생성된 이미.. 2025. 9. 9.
알리바바, 매개변수 1조개 '큐원3-맥스' 공개...AI 모델 경쟁의 새로운 지평 열다 중국 AI의 도전장...알리바바가 미국 폐쇄형 모델과 맞서는 1조개 매개변수 AI 알리바바가 무려 1조개(1000B) 이상의 매개변수를 가진 새로운 플래그십 대형언어모델(LLM) '큐원3-맥스'를 공개했다. 이는 오픈 소스 AI 모델의 새로운 이정표를 세우는 동시에, 미국의 폐쇄형 모델들과 본격적인 경쟁을 예고하는 중요한 사건이다. 1조개 매개변수, AI 모델의 새로운 경계선큐원3-맥스는 알리바바가 개발한 최대 규모의 AI 모델로, 1조개 이상의 매개변수를 자랑한다. 이는 기존의 대부분 AI 모델들이 수백억 개 수준의 매개변수를 가진 것과 비교할 때 압도적인 규모다. 매개변수가 많을수록 모델의 복잡성과 성능이 향상되는 경향이 있어, 큐원3-맥스는 더욱 정교하고 정확한 AI 응답을 제공할 것으로 기대된다... 2025. 9. 9.
메타, 오디오 AI 스타트업 '웨이브폼즈' 인수 인간의 감정을 인식하는 AI 기술 확보… 멀티모달 기능 강화 기대새로운 '슈퍼인텔리전스 랩' 주축으로 라마 4.5 등 차세대 모델 개발 소셜 미디어 기업 메타(Meta)가 오디오 인공지능(AI) 스타트업 '웨이브폼즈(Waveforms)'를 인수하며 AI 기술 경쟁에 박차를 가하고 있다. 이번 인수는 메타의 차세대 AI 모델인 '라마 4.5(Llama 4.5)' 개발을 가속화하기 위한 전략적 행보로 풀이되며, 특히 인간의 음성에서 감정을 인식하고 모방하는 웨이브폼즈의 독보적인 기술을 활용할 것으로 예상된다. 메타는 최근 AI 조직을 '슈퍼인텔리전스 랩(Superintelligence Labs, MSL)'으로 재편하고, 그 산하에 'TBD 랩'이라는 특별 팀을 신설해 라마 4.5를 비롯한 차세대 모델 개발을.. 2025. 8. 9.
반응형