반응형 음성인식2 구글, 세계 접근성 인식의 날 맞아 새로운 AI 기반 접근성 기능 발표 TalkBack에 Gemini AI 통합해 시각장애인 이미지 이해 도움표현적 자막으로 소리의 '감정'까지 전달하는 혁신 기술 구글이 세계 접근성 인식의 날(GAAD)을 맞아 안드로이드와 크롬 브라우저에 인공지능(AI)을 활용한 새로운 접근성 기능을 대거 추가한다고 15일 발표했다. 특히 제미니(Gemini) AI를 안드로이드의 시각장애인용 스크린리더 '톡백(TalkBack)'에 통합하고, 청각장애인을 위한 '표현적 자막(Expressive Captions)' 기능을 개선하는 등 장애인의 디지털 접근성을 높이기 위한 혁신적인 기술들이 포함됐다. 제미니 AI로 강화된 톡백, 이미지에 질문하고 답변 받는다구글은 작년부터 안드로이드의 스크린리더 '톡백'에 제미니 AI를 통합해 대체 텍스트가 없는 이미지도 AI.. 2025. 5. 16. OpenAI, 차세대 음성 AI 모델 '위스퍼 3'와 '보이스 엔진' 공개 "99% 정확도의 위스퍼 3, 실시간 음성 인식의 새 지평 열어""맞춤형 음성 생성 가능한 '보이스 엔진' 상용화 시동" OpenAI가 혁신적인 음성 AI 기술의 새 장을 열었다. 향상된 음성 인식 모델 '위스퍼 3(Whisper 3)'와 음성 합성 시스템 '보이스 엔진(Voice Engine)'을 발표하며 음성 AI 시장의 판도 변화를 예고했다. 위스퍼 3, 인간 수준의 음성 인식 달성위스퍼 3는 기존 모델 대비 대폭 개선된 성능을 자랑한다. 영어 음성 인식에서 99%의 정확도를 달성했으며, 다양한 언어와 악센트에 대한 이해도도 크게 향상됐다.주요 특징:실시간 음성 인식 지원다중 화자 구분 기능배경 소음에 강한 내구성80개 이상 언어 지원"위스퍼 3는 인간의 음성 인식 능력에 근접한 성능을 보여주고 있.. 2025. 3. 23. 이전 1 다음 반응형