본문 바로가기

github4

알리바바, 멀티모달 AI 'Qwen3-Omni' 오픈소스 공개 텍스트·음성·이미지·영상 통합 처리…오픈소스 AI 생태계에 새바람실시간 음성 상호작용 가능…다국어 지원으로 활용성 극대화 알리바바 클라우드의 AI 연구팀인 콴원(Qwen)이 텍스트, 이미지, 오디오, 비디오를 모두 이해하고 실시간 음성으로 응답하는 옴니모달(omni-modal) 대규모 언어모델(LLM) 'Qwen3-Omni'를 오픈소스로 공개했다. 이는 폐쇄형 모델이 주도하던 멀티모달 AI 시장에서 오픈소스 모델의 새로운 가능성을 제시했다는 평가를 받고 있다.텍스트 넘어 멀티모달로…경계 허무는 AI최근 인공지능 분야는 단순히 텍스트를 처리하는 것을 넘어, 음성, 이미지, 영상을 복합적으로 이해하고 상호작용하는 멀티모달 기술 경쟁이 치열하다. 'Qwen3-Omni'는 이러한 흐름 속에서 텍스트와 비전, 오.. 2025. 9. 23.

GitHub Copilot 코딩 에이전트, 공개 미리보기 시작 AI 개발 도우미로서의 새로운 전환점효율적인 문제 해결을 위한 혁신적인 접근법 GitHub은 2025년 5월 19일, Copilot 코딩 에이전트를 공개 미리보기로 출시했다고 발표했다. 이 새로운 기능은 개발자들이 기술 부채를 줄이고 창의적이며 복잡한 작업에 집중할 수 있도록 돕기 위해 설계되었다. Copilot 코딩 에이전트는 사용자가 GitHub에서 다른 개발자에게 문제를 할당하듯이 이슈를 Copilot에 할당할 수 있게 해준다. 이 기능은 GitHub Actions에 의해 구동되는 안전한 클라우드 기반 개발 환경에서 작동하며, Copilot은 저장소를 탐색하고 변경 사항을 적용한 후, 테스트와 린터를 통해 작업을 검증한 뒤 푸시한다.Copilot은 잘 테스트된 코드베이스에서 저중간 복잡도의 작업을 .. 2025. 5. 20.

대학생 2명이 개발한 AI 음성 모델 'Dia', 구글의 NotebookLM에 도전장 AI 경험 부족에도 불구하고 3개월 만에 개발 성공오픈 액세스 모델로 Hugging Face와 GitHub에서 이용 가능 두 명의 대학생이 인공지능 분야에 깊은 배경 지식 없이도 구글의 NotebookLM과 유사한 팟캐스트 스타일 오디오 클립을 생성할 수 있는 AI 모델을 개발했다. 이들은 지난 4월 22일 Nari Labs를 통해 'Dia'라는 이름의 모델을 공개했으며, 사용자에게 음성 생성에 대한 더 많은 제어권과 "스크립트의 자유"를 제공하는 것을 목표로 했다.Nari Labs의 공동 창업자인 토비 김은 "3개월 전에 음성 AI 탐색을 시작했다"며 구글의 TPU 리서치 클라우드 프로그램을 활용해 모델을 훈련시켰다고 밝혔다. 16억 개의 매개변수를 가진 Dia는 주어진 스크립트에서 대화를 생성하고, .. 2025. 4. 23.

GitHub o3-mini와 함께하는 Copilot 및 GitHub Models 통합 GitHub은 OpenAI의 최신 추론 모델인 o3-mini를 Copilot 및 GitHub Models에 통합하며, 개발자들에게 더 스마트하고 효율적인 AI 솔루션을 제공합니다. 이 모델은 수학, 코딩, 과학적 추론에서 뛰어난 성능을 보이며, 특히 응답 속도가 이전 모델 대비 24% 향상되었습니다."o3-mini는 AI 개발의 새로운 기준을 제시하며, 개발자들에게 실시간 데이터 검색과 구조화된 출력 기능을 제공합니다." - OpenAI 발표주요 기능 및 통합 방식o3-mini는 GitHub Copilot Pro, Business, Enterprise 사용자들에게 제공되며, Visual Studio Code와 GitHub Chat에서 선택 가능합니다. 또한 Microsoft Azure OpenAI 서비스.. 2025. 2. 2.

이전 1 다음

티스토리툴바