본문 바로가기

음성인식4

일레븐랩스, 'Eleven v3' 공개…AI 음성, 인간 감성 표현 시대 개막 AI 음성 모델, 속삭임·웃음 등 자연스러운 감정 표현 가능해져30개 언어 지원하며 게임·콘텐츠 등 AI 음성 활용 범위 확대 인공지능(AI) 음성 기술 스타트업 일레븐랩스(ElevenLabs)가 속삭임, 웃음 등 인간의 미묘한 감정을 자연스럽게 표현할 수 있는 최신 AI 음성 모델 'Eleven v3'를 공개했습니다. 이는 AI 음성 기술이 단순히 텍스트를 소리로 변환하는 단계를 넘어, 실제 인간의 목소리와 감성적 표현에 근접하며 AI 음성 상호작용의 새로운 지평을 열었다는 평가를 받고 있습니다. 'Eleven v3', 인간의 미묘한 감성까지 구현일레븐랩스가 새롭게 선보인 'Eleven v3'는 기존 AI 음성 모델의 한계를 뛰어넘어, 더욱 자연스럽고 표현력이 풍부한 음성 생성을 가능하게 합니다. 이 .. 2025. 6. 7.

위스프 플로우, '노력 없는 받아쓰기' iOS 앱 출시 첨단 AI 음성 인식 기술로 텍스트 입력 패러다임 변화 예고실시간 정확성 및 매끄러운 사용자 경험으로 업무 효율 극대화 인공지능(AI) 기반 챗봇 플랫폼 위스프 플로우(Wispr Flow)가 2025년 6월 3일, 사용자들이 음성으로 텍스트를 입력하는 과정을 더욱 쉽고 자연스럽게 만드는 데 중점을 둔 iOS 앱을 출시했습니다.'노력 없는 받아쓰기' 구현…위스프 플로우 앱의 핵심 기능위스프 플로우의 새로운 iOS 앱은 '노력 없는 받아쓰기(effortless dictation)'를 핵심 가치로 내세웁니다. 이는 기존 받아쓰기 도구들이 가진 정확도나 속도 문제를 넘어, 사용자가 마치 생각하는 것을 그대로 옮겨 적는 듯한 매끄러운 경험을 제공하는 데 집중합니다. 앱은 AI 기반의 음성 인식 기술을 통해 사용자.. 2025. 6. 4.

구글, 세계 접근성 인식의 날 맞아 새로운 AI 기반 접근성 기능 발표 TalkBack에 Gemini AI 통합해 시각장애인 이미지 이해 도움표현적 자막으로 소리의 '감정'까지 전달하는 혁신 기술 구글이 세계 접근성 인식의 날(GAAD)을 맞아 안드로이드와 크롬 브라우저에 인공지능(AI)을 활용한 새로운 접근성 기능을 대거 추가한다고 15일 발표했다. 특히 제미니(Gemini) AI를 안드로이드의 시각장애인용 스크린리더 '톡백(TalkBack)'에 통합하고, 청각장애인을 위한 '표현적 자막(Expressive Captions)' 기능을 개선하는 등 장애인의 디지털 접근성을 높이기 위한 혁신적인 기술들이 포함됐다. 제미니 AI로 강화된 톡백, 이미지에 질문하고 답변 받는다구글은 작년부터 안드로이드의 스크린리더 '톡백'에 제미니 AI를 통합해 대체 텍스트가 없는 이미지도 AI.. 2025. 5. 16.

OpenAI, 차세대 음성 AI 모델 '위스퍼 3'와 '보이스 엔진' 공개 "99% 정확도의 위스퍼 3, 실시간 음성 인식의 새 지평 열어""맞춤형 음성 생성 가능한 '보이스 엔진' 상용화 시동" OpenAI가 혁신적인 음성 AI 기술의 새 장을 열었다. 향상된 음성 인식 모델 '위스퍼 3(Whisper 3)'와 음성 합성 시스템 '보이스 엔진(Voice Engine)'을 발표하며 음성 AI 시장의 판도 변화를 예고했다. 위스퍼 3, 인간 수준의 음성 인식 달성위스퍼 3는 기존 모델 대비 대폭 개선된 성능을 자랑한다. 영어 음성 인식에서 99%의 정확도를 달성했으며, 다양한 언어와 악센트에 대한 이해도도 크게 향상됐다.주요 특징:실시간 음성 인식 지원다중 화자 구분 기능배경 소음에 강한 내구성80개 이상 언어 지원"위스퍼 3는 인간의 음성 인식 능력에 근접한 성능을 보여주고 있.. 2025. 3. 23.

이전 1 다음

티스토리툴바