본문 바로가기
반응형

오픈소스ai11

마이크로소프트, 최대 90분 길이 팟캐스트 제작 가능한 AI 모델 '바이브보이스' 공개 다중 화자 대화·감정 표현 구사... "자발적 노래 생성 능력까지 잠재"초저프레임 오디오 토크나이저 혁신, 긴 오디오 시퀀스 처리 효율 극대화 인공지능(AI) 기술팀 = 마이크로소프트(MS)가 팟캐스트와 같은 긴 형식의 다중 화자 대화 오디오를 텍스트로 생성하는 새로운 AI 모델 '바이브보이스(VibeVoice)'를 공개했다. 이 모델은 최대 90분 길이의 연속적인 음성 합성이 가능하며, 자연스러운 감정 표현과 화자 일관성 유지 능력을 통해 기존 텍스트-음성 변환(TTS) 기술의 한계를 뛰어넘었다는 평가를 받는다. 최근 팟캐스트, 오디오북 등 장문 오디오 콘텐츠 시장이 급성장하고 있으나, 기존의 TTS 모델은 대부분 짧은 문장이나 단일 화자 음성 생성에 초점을 맞추어 왔다. 여러 화자가 등장하는 긴 대화.. 2025. 9. 28.
알리바바, 매개변수 1조개 '큐원3-맥스' 공개...AI 모델 경쟁의 새로운 지평 열다 중국 AI의 도전장...알리바바가 미국 폐쇄형 모델과 맞서는 1조개 매개변수 AI 알리바바가 무려 1조개(1000B) 이상의 매개변수를 가진 새로운 플래그십 대형언어모델(LLM) '큐원3-맥스'를 공개했다. 이는 오픈 소스 AI 모델의 새로운 이정표를 세우는 동시에, 미국의 폐쇄형 모델들과 본격적인 경쟁을 예고하는 중요한 사건이다. 1조개 매개변수, AI 모델의 새로운 경계선큐원3-맥스는 알리바바가 개발한 최대 규모의 AI 모델로, 1조개 이상의 매개변수를 자랑한다. 이는 기존의 대부분 AI 모델들이 수백억 개 수준의 매개변수를 가진 것과 비교할 때 압도적인 규모다. 매개변수가 많을수록 모델의 복잡성과 성능이 향상되는 경향이 있어, 큐원3-맥스는 더욱 정교하고 정확한 AI 응답을 제공할 것으로 기대된다... 2025. 9. 9.
스위스, 15조 토큰 훈련된 오픈소스 AI 모델 'Apertus' 출시 EPFL·ETH 취리히·CSCS 공동 개발로 1,000개 이상 언어 지원하는 완전 오픈소스 모델EU 정책 부합하는 투명성과 접근성으로 AI 주권 강화 및 오픈소스 생태계 발전 스위스가 15조 토큰으로 훈련된 완전 오픈소스 AI 모델 'Apertus'를 출시했다. 이 모델은 EPFL(스위스 연방공과대학 로잔), ETH 취리히(스위스 연방공과대학 취리히), CSCS(스위스 국립 슈퍼컴퓨팅 센터)가 공동으로 개발했으며, 1,000개 이상의 언어로 훈련되었다.Apertus는 EU 정책에 부합하는 투명성과 접근성을 제공하며, Swisscom과 Public AI를 통해 이용할 수 있다. 이는 스위스의 AI 주권 강화와 오픈소스 AI 생태계 발전을 위한 중요한 이정표로 평가된다. Apertus 모델의 가장 큰 특징은.. 2025. 9. 7.
GitHub Models, 오픈소스 AI 프로젝트 접근성 혁신: 무료 추론 API 공개 개발 장벽 낮춰 오픈소스 AI 생태계 활성화 기대OpenAI 호환 API 제공, GitHub 계정만 있으면 즉시 사용 가능 GitHub이 오픈소스 AI 프로젝트의 접근성을 획기적으로 향상시킬 새로운 서비스인 'GitHub Models'를 공개했다. 2025년 7월 23일(수) 발표된 이 서비스는 무료로 OpenAI 호환 추론 API를 제공하여, 기존에 오픈소스 AI 프로젝트가 직면했던 유료 API 구독 및 복잡한 모델 호스팅 문제를 해결할 것으로 기대된다. 그동안 오픈소스 AI 프로젝트는 강력한 AI 기능을 제공함에도 불구하고, 사용자나 기여자가 별도의 유료 추론 API 키를 구매하거나 대규모 모델을 직접 호스팅해야 하는 부담으로 인해 진입 장벽이 높았다. 특히, 노트북이나 GitHub Actions 러.. 2025. 7. 24.
바이두, 차세대 AI 모델 ERNIE 4.5 오픈소스 공개 글로벌 AI 생태계 확장 위한 전략적 전환딥시크 등 경쟁 모델 능가하는 성능, 산업 전반에 파급 예상 중국의 거대 기술 기업 바이두가 자사의 최신 대규모 언어 모델(LLM)인 ERNIE 4.5의 오픈소스 버전을 전격 공개하며 글로벌 인공지능(AI) 생태계 확장을 위한 새로운 전략적 움직임을 보였습니다. https://github.com/PaddlePaddle/ERNIE GitHub - PaddlePaddle/ERNIE: The official repository for ERNIE 4.5 and ERNIEKit – its industrial-grade development toolkit basThe official repository for ERNIE 4.5 and ERNIEKit – its indust.. 2025. 7. 2.
일본 스타트업 사카나 AI, 뇌 영감 받은 시간 기반 AI 모델 개발 트랜스포머 공동 개발자가 설립한 기업의 혁신적 접근법기존 언어 모델과 차별화된 '연속적 사고 기계' 아키텍처 도쿄 기반 스타트업 사카나 AI가 뇌의 시간 처리 방식을 모방한 새로운 인공지능 시스템 '연속적 사고 기계(Continuous Thought Machine, CTM)'를 최근 발표했다. 트랜스포머 아키텍처 원저자 중 한 명인 리온 존스(Llion Jones)가 공동 설립한 이 회사는 2023년 설립 당시 자연에서 영감을 받은 AI 시스템 구축을 목표로 밝힌 바 있다. CTM은 기존 언어 모델과 달리 입력을 단일 정적 스냅샷으로 처리하는 대신 합성 뉴런이 시간에 따라 동기화되는 방식에 초점을 맞추고 있다. 이 모델은 전통적인 활성화 함수 대신 과거 활성화의 이력을 추적하는 '뉴런 수준 모델(NLMs.. 2025. 5. 19.
반응형