본문 바로가기

IT586

알리바바, 2시간짜리 영상 꿰뚫는 AI ‘Qwen3-VL’ 공개… “GPT-5·제미나이 넘었다” 영상 속 특정 장면 1초 만에 포착… 모바일 기기 제어하는 ‘에이전트’ 기능 탑재25만 토큰 기본 처리에 최대 100만 토큰 확장… 긴 영상 분석의 ‘게임 체인저’ 알리바바 클라우드가 2시간 분량의 고해상도 영상을 정밀하게 분석하고, 스마트폰과 컴퓨터를 스스로 조작할 수 있는 차세대 시각-언어 모델(VLM) ‘Qwen3-VL(퀴원3-VL)’을 전격 공개했다. 이번 모델은 영상 이해력과 연산 효율성에서 경쟁작인 구글의 ‘제미나이 2.5 프로(Gemini 2.5 Pro)’와 오픈AI의 ‘GPT-5’를 일부 지표에서 앞선 것으로 나타나, 글로벌 AI 시장의 지각변동을 예고했다.◇ 2시간 영상도 ‘초단위’로 분석… “바늘 찾기 정확도 99.5%”알리바바 클라우드의 퀴원(Qwen) 팀은 28일(현지시간) 공식 블.. 2025. 11. 30.

텐센트, 소비자용 GPU서 돌아가는 ‘훈위안비디오 1.5’ 오픈소스 공개 83억 파라미터 경량화 모델… “고품질 비디오 생성 장벽 낮춘다”24GB VRAM 지원·추론 속도 2배 향상… 허깅페이스 통해 즉시 사용 가능 중국 빅테크 기업 텐센트(Tencent)가 일반 소비자용 그래픽카드(GPU)에서도 구동 가능한 고성능 비디오 생성 AI ‘훈위안비디오 1.5(HunyuanVideo-1.5)’를 오픈소스로 공개했다. 기존 대형 모델 대비 파라미터(매개변수) 수를 줄이면서도 생성 품질은 유지해, 고사양 하드웨어 없이도 개인 창작자가 AI 영상을 제작할 수 있는 길이 열렸다.텐센트 훈위안 팀은 지난 20일(현지시간) 허깅페이스(Hugging Face)를 통해 훈위안비디오 1.5의 모델 가중치와 추론 코드를 전면 개방했다고 밝혔다. 이번 모델은 약 83억(8.3B) 파라미터 규모로, 앞.. 2025. 11. 26.

구글 TPU, 엔비디아 독점 흔드나 ‘풀스택’ 전략으로 AI 칩 시장 판도 변화 예고CUDA 생태계 장벽 여전… “공존 가능성 커”구글이 자체 개발한 AI 칩 ‘TPU(Tensor Processing Unit)’를 앞세워 엔비디아가 장악한 AI 반도체 시장에 도전장을 던졌다. 구글은 AI 모델부터 칩, 클라우드, 서비스까지 아우르는 ‘수직 계열화’ 전략으로 시장 점유율 확대를 노리고 있다.구글은 최근 제미나이 3.0 등 고성능 모델을 공개하며 기술력을 입증했다. 특히 10년 넘게 내부용으로 사용하던 TPU를 외부 고객에게 개방하며 엔비디아 GPU의 대안으로 떠오르고 있다. 구글 전략의 핵심은 ‘풀스택(Full Stack)’ 수직 계열화다. 구글 딥마인드가 설계한 모델을 자체 칩(TPU)으로 학습시키고, 자체 데이터센터와 클라우드를 통해 전.. 2025. 11. 26.

워너뮤직, AI 음악 '수노'와 파트너십…소송전 끝내고 '적과의 동침' 저작권 소송 취하하고 라이선스 계약 체결…2026년 '공식 인증' AI 모델 출시수노, 워너뮤직 자회사 '송킥' 인수…무료 사용자 다운로드 제한 등 서비스 개편 미국 3대 대형 음반사 중 하나인 워너뮤직그룹(Warner Music Group, 이하 WMG)이 생성형 AI 음악 스타트업 '수노(Suno)'와 전격 손을 잡았다. 지난해 제기했던 저작권 침해 소송을 취하하고, 오히려 자사 음원을 AI 학습에 제공하는 라이선스 파트너십을 맺으며 '적'에서 '동지'로 급선회했다.WMG와 수노는 25일(현지시간) 공동 성명을 통해 "창작자 커뮤니티에 혜택을 주는 차세대 라이선스 AI 음악 모델을 구축하기 위해 파트너십을 체결했다"고 발표했다. 이번 계약으로 양사 간의 법적 분쟁은 모두 종결됐으며, 수노는 워너뮤직의.. 2025. 11. 26.

스피치파이, 크롬 확장앱에 'AI 음성비서' 탑재 OpenAI '위스퍼'·'GPT-4o' 기반…음성 입력·요약 지원듣기(TTS) 넘어 말하기(STT)로 영역 확장텍스트 음성 변환(TTS) 플랫폼 스피치파이(Speechify)가 '말하기' 영역으로 사업을 확장했다. 스피치파이는 자사 크롬 확장 프로그램에 음성 입력(Voice Typing)과 AI 음성 비서 기능을 새롭게 추가했다고 밝혔다.이번 업데이트로 사용자는 키보드 입력 대신 목소리로 지메일(Gmail)을 작성하거나 구글 문서(Google Docs)를 편집할 수 있게 됐다. 기존의 텍스트를 읽어주는 기능에서 나아가, 사용자의 음성을 텍스트로 변환하고 명령을 수행하는 양방향 AI 도구로 진화한 것이다. 새로운 기능은 브라우저 사이드바 형태로 제공된다. 사용자가 마이크 버튼을 누르고 말하면, AI가 실시.. 2025. 11. 26.

앤스로픽 ‘오퍼스 4.5’ 출시…엑셀·웹 직접 제어 코딩·에이전트 성능 ‘압도’…API 가격 66% 인하MS 엑셀·크롬 연동 강화…복잡한 업무 자동화 앤스로픽(Anthropic)이 24일(현지시간) 최상위 인공지능(AI) 모델 ‘클로드 오퍼스 4.5(Claude Opus 4.5)’를 전격 출시했다. 코딩과 에이전트 성능을 대폭 강화하고 엑셀과 웹 브라우저를 직접 제어하는 기능을 탑재해 업무 자동화의 새로운 지평을 열었다는 평가다.이번에 공개된 오퍼스 4.5는 앤스로픽이 선보인 모델 중 가장 지능적이고 효율적인 모델이다. 앤스로픽은 “코딩, 에이전트, 컴퓨터 사용 분야에서 세계 최고의 모델”이라고 소개했다. 실제 소프트웨어 엔지니어링 벤치마크(SWE-bench)에서 80.9%를 기록하며 오픈AI의 ‘GPT-5.1’(77.9%)과 구글의 ‘제미나이 3 프로’.. 2025. 11. 25.

이전 1 ··· 11 12 13 14 15 16 17 ··· 98 다음

티스토리툴바