본문 바로가기
반응형

오픈소스ai15

Mistral, 오픈소스 음성 생성 모델 공개 텍스트-to-스피치 분야에서 고품질 오픈 모델로 경쟁 가속… “개발자 중심 AI” 선언 프랑스 AI 스타트업 Mistral AI가 2026년 3월 26일(현지시간) 새로운 오픈소스 음성 생성 모델 ‘Mistral Speech’를 공식 출시했다. 이 모델은 기존 상용 TTS(Text-to-Speech) 모델(Google TTS, ElevenLabs, OpenAI TTS 등) 대비 음성 품질과 자연스러움에서 동등하거나 뛰어나면서도 완전 오픈소스로 공개되어 개발자·기업들의 즉각적인 커스터마이징이 가능하다.Mistral은 모델 가중치, 코드, 학습 데이터셋 구성까지 GitHub에 공개했으며, Hugging Face와 연동해 누구나 1클릭으로 로컬·클라우드에서 실행할 수 있도록 지원한다. 특히 다국어(한국어 포함.. 2026. 3. 30.
중국 MiniMax, M2.5 / M2.5 Lightning 공개 오픈소스 MoE 아키텍처로 가격 파괴… 연 1만 달러에 다수 에이전트 운영 가능 중국 AI 스타트업 MiniMax가 2월 12일 M2.5 시리즈를 공개하며 글로벌 LLM 시장의 가격 전쟁을 본격화했습니다. 최고 성능 모델 M2.5는 Claude Opus 4.6과 GPQA·LiveCodeBench·AgentBench 등 주요 벤치마크에서 92~96% 수준의 성능을 기록하면서도 추론 비용은 1/20 수준에 불과하다고 주장했습니다.기술적 핵심은 최적화된 Mixture of Experts(MoE) 아키텍처입니다. 총 1.8조 파라미터 중 활성화되는 파라미터를 220억 개로 제한해 연산 효율을 극대화했으며, 128K 컨텍스트를 지원하면서도 메모리 사용량을 Claude의 1/7로 줄였습니다. 특히 ‘M2.5 Lig.. 2026. 2. 18.
새 AI '문드림 3' 공개... 20억 활성 파라미터로 '경이로운' 성능 MoE 아키텍처로 소비자용 하드웨어에서 구동 가능객체 탐지, 시각 추론, GUI 분석까지... '과소평가된 모델' 평가 새로운 소형 비전 언어 모델(VLM) '문드림 3(Moondream 3)'가 공개되어 주목받고 있다. 이 모델은 총 90억 개의 파라미터를 가졌지만, 전문가 혼합(MoE) 아키텍처를 사용해 실제 활성 파라미터는 20억 개에 불과하다. 작은 크기에도 불구하고 "현재 최고의(goated) 모델 중 하나"이자 "경이로운" 성능을 보여준다는 평가다.문드림 3는 소비자용 하드웨어에서도 실행할 수 있을 만큼 가벼운 것이 특징이다. 허깅페이스(Hugging Face)를 통해 모델에 접근할 수 있으나, 전용 토큰을 사용한 접근 승인이 필요하다. 라이선스 측면에서는 상업적 이용은 가능하지만, 모델 자체.. 2025. 11. 16.
알리바바, Qwen3 컴팩트 멀티모달 모델 공개…GPT-4o 등과 경쟁 30억 활성 파라미터로 고성능 발휘, 수학·이미지 인식·에이전트 제어 강화FP8 버전 포함하여 오픈소스로 제공…HuggingFace, GitHub 등에서 이용 가능 중국 기술 대기업 알리바바(Alibaba)의 AI 연구 조직인 Qwen 팀이 'Qwen3-Omni' 계열의 새로운 소규모 멀티모달 모델 두 가지를 오픈소스로 공개했다. 이 모델들은 각각 30억 개의 활성 파라미터(3B active parameters)를 가졌음에도 불구하고, 대규모 모델인 GPT-4o 및 클로드 3 소네트(Claude 3 Sonnet)와 경쟁할 만한 고성능을 발휘한다고 발표했다. 새롭게 공개된 모델은 Qwen3-VL-30B-A3B-Instruct와 Qwen3-VL-30B-A3B-Thinking 버전이다. Qwen3 컴.. 2025. 10. 5.
마이크로소프트, 최대 90분 길이 팟캐스트 제작 가능한 AI 모델 '바이브보이스' 공개 다중 화자 대화·감정 표현 구사... "자발적 노래 생성 능력까지 잠재"초저프레임 오디오 토크나이저 혁신, 긴 오디오 시퀀스 처리 효율 극대화 인공지능(AI) 기술팀 = 마이크로소프트(MS)가 팟캐스트와 같은 긴 형식의 다중 화자 대화 오디오를 텍스트로 생성하는 새로운 AI 모델 '바이브보이스(VibeVoice)'를 공개했다. 이 모델은 최대 90분 길이의 연속적인 음성 합성이 가능하며, 자연스러운 감정 표현과 화자 일관성 유지 능력을 통해 기존 텍스트-음성 변환(TTS) 기술의 한계를 뛰어넘었다는 평가를 받는다. 최근 팟캐스트, 오디오북 등 장문 오디오 콘텐츠 시장이 급성장하고 있으나, 기존의 TTS 모델은 대부분 짧은 문장이나 단일 화자 음성 생성에 초점을 맞추어 왔다. 여러 화자가 등장하는 긴 대화.. 2025. 9. 28.
알리바바, 매개변수 1조개 '큐원3-맥스' 공개...AI 모델 경쟁의 새로운 지평 열다 중국 AI의 도전장...알리바바가 미국 폐쇄형 모델과 맞서는 1조개 매개변수 AI 알리바바가 무려 1조개(1000B) 이상의 매개변수를 가진 새로운 플래그십 대형언어모델(LLM) '큐원3-맥스'를 공개했다. 이는 오픈 소스 AI 모델의 새로운 이정표를 세우는 동시에, 미국의 폐쇄형 모델들과 본격적인 경쟁을 예고하는 중요한 사건이다. 1조개 매개변수, AI 모델의 새로운 경계선큐원3-맥스는 알리바바가 개발한 최대 규모의 AI 모델로, 1조개 이상의 매개변수를 자랑한다. 이는 기존의 대부분 AI 모델들이 수백억 개 수준의 매개변수를 가진 것과 비교할 때 압도적인 규모다. 매개변수가 많을수록 모델의 복잡성과 성능이 향상되는 경향이 있어, 큐원3-맥스는 더욱 정교하고 정확한 AI 응답을 제공할 것으로 기대된다... 2025. 9. 9.
반응형