본문 바로가기
IT

구글, 세계 접근성 인식의 날 맞아 새로운 AI 기반 접근성 기능 발표

by 카메라의눈 2025. 5. 16.
반응형
TalkBack에 Gemini AI 통합해 시각장애인 이미지 이해 도움
표현적 자막으로 소리의 '감정'까지 전달하는 혁신 기술

TalkBack
blog.google

 

구글이 세계 접근성 인식의 날(GAAD)을 맞아 안드로이드크롬 브라우저에 인공지능(AI)을 활용한 새로운 접근성 기능을 대거 추가한다고 15일 발표했다. 특히 제미니(Gemini) AI를 안드로이드의 시각장애인용 스크린리더 '톡백(TalkBack)'에 통합하고, 청각장애인을 위한 '표현적 자막(Expressive Captions)' 기능을 개선하는 등 장애인의 디지털 접근성을 높이기 위한 혁신적인 기술들이 포함됐다.

 

 

제미니 AI로 강화된 톡백, 이미지에 질문하고 답변 받는다

구글은 작년부터 안드로이드의 스크린리더 '톡백'에 제미니 AI를 통합해 대체 텍스트가 없는 이미지도 AI가 자동으로 설명해주는 기능을 제공해왔다. 이번 업데이트에서는 한 단계 더 나아가 사용자가 이미지에 대해 질문하고 답변을 받을 수 있는 기능이 추가됐다.

예를 들어, 친구가 새 기타 사진을 문자로 보냈을 때 시각장애인 사용자는 이제 그 이미지에 대한 설명뿐만 아니라 "이 기타의 브랜드는 무엇인가요?" 또는 "기타의 색상은 무엇인가요?"와 같은 후속 질문을 할 수 있게 됐다. 더 나아가 전체 화면에 대한 설명과 질문도 가능해져, 쇼핑 앱에서 제품의 소재나 할인 정보를 직접 물어볼 수도 있다.

이미지 설명:  안드로이드 폰 화면에 쇼핑 앱이 표시되어 있고, 톡백의 제미니 기능이 화면에 있는 네 개의 드레스를 설명하고 있습니다. 사용자는 제미니에게 화면에 관한 질문을 할 수 있습니다.

 

 

소리의 감정까지 전달하는 '표현적 자막' 기능 개선

구글은 또한 청각장애인을 위한 '표현적 자막' 기능에 새로운 '지속 시간' 기능을 추가했다. 이 기능은 실시간으로 음성을 텍스트로 변환할 뿐만 아니라, 발화자가 특정 단어의 소리를 늘여서 말할 때(예: "놀라aaaaa워요") 이를 시각적으로 표현해 감정까지 전달한다.

이 업데이트는 영어를 사용하는 미국, 영국, 캐나다, 호주에서 안드로이드 15 이상 기기에 먼저 제공되며, 휘파람이나 목청 가다듬기 같은 다양한 비언어적 소리에 대한 레이블도 추가됐다.

소리의 감정까지 전달하는 '표현적 자막' 기능 개선
이미지 설명:  안드로이드 폰에 축구 경기가 표시되어 있고, 표현적 자막 기능이 활성화되어 있습니다. 중계자가 골을 설명하며 "Amaazing(놀라aaaaa워요)"라고 말하는 장면을 자막에서 소리의 지속 시간까지 표현하고 있습니다.

 

글로벌 음성 인식 기술 확장

구글은 2019년부터 '프로젝트 유포니아(Project Euphonia)'를 통해 비표준 음성을 가진 사람들을 위한 음성 인식 기술을 개발해왔다. 이제 전 세계 개발자들이 더 많은 언어와 문화적 맥락에서 이 기술을 활용할 수 있도록 오픈소스 저장소를 GitHub를 통해 공개했다.

특히 구글은 Google.org와 협력해 런던 대학과 함께 '디지털 언어 포용 센터(CDLI)'를 설립, 아프리카 내 10개 언어에 대한 음성 인식 기술 개발을 지원하고 있다. 이 프로젝트는 비영어권 화자를 위한 음성 인식 기술을 개선하기 위해 오픈소스 데이터셋을 구축하고 새로운 음성 인식 모델을 개발하는 것을 목표로 한다.

 

 

구글의 주요 접근성 기능 비교표

기능 대상 사용자 주요 특징 지원 기기/플랫폼
톡백 + 제미니 AI 시각장애인 이미지 설명 및 Q&A, 화면 전체 설명 안드로이드
표현적 자막 청각장애인 소리 지속 시간 표현, 비언어적 소리 레이블 안드로이드 15+ (영어 지원)
프로젝트 유포니아 비표준 음성 사용자 오픈소스 음성인식 개선 도구 개발자용 GitHub 저장소
크롬 PDF OCR 시각장애인 스캔된 PDF 문서 접근성 지원 크롬 데스크톱
페이지 줌 저시력 사용자 레이아웃 유지하며 텍스트 확대 안드로이드용 크롬

 

학생들을 위한 접근성 확대

구글은 또한 크롬북의 '페이스 컨트롤'과 '리딩 모드' 같은 접근성 기능을 학생들이 시험에서도 활용할 수 있도록 했다. 특히 대학위원회의 블루북(Bluebook) 테스팅 앱과 크롬북을 함께 사용할 때 ChromeVox 스크린 리더와 받아쓰기 기능 등 구글의 모든 내장 접근성 기능을 활용할 수 있게 됐다.

 

크롬 브라우저, PDF 접근성 개선 및 페이지 줌 기능 추가

하루 20억 명 이상이 사용하는 크롬 브라우저에도 접근성 개선이 이루어졌다. 특히 스캔된 PDF 파일을 데스크톱 크롬 브라우저에서 열 때 광학 문자 인식(OCR)을 통해 스크린 리더가 텍스트를 읽을 수 있게 됐다.

또한 안드로이드용 크롬에 '페이지 줌' 기능을 추가해 웹페이지 레이아웃을 유지하면서도 텍스트 크기를 확대할 수 있게 됐다. 사용자는 확대 정도를 직접 설정하고, 모든 웹페이지 또는 특정 페이지에만 적용할 수 있다.

크롬 브라우저, PDF 접근성 개선 및 페이지 줌 기능 추가
이미지 설명:  안드로이드용 크롬에서 페이지 줌 기능이 시연되고 있으며, 페이지의 텍스트가 확대되고 축소되는 모습을 보여줍니다.

 

AI 기술이 가져온 접근성의 혁신

인공지능 기술의 발전은 디지털 세계의 접근성을 획기적으로 개선하고 있다. 구글의 새로운 접근성 기능은 시각, 청각 장애를 가진 사람들뿐만 아니라 다양한 사용자들이 디지털 기기를 더 효과적으로 활용할 수 있게 도와준다.

 

특히 이번 업데이트는 단순히 정보 접근성을 높이는 것을 넘어, 감정이나 맥락까지 전달할 수 있는 발전된 기술을 선보였다는 점에서 의미가 크다. 앞으로도 구글은 AI 기술을 활용해 더 많은 사람들이 디지털 세계에 평등하게 접근할 수 있도록 노력할 계획이다.

 

참고 링크:

  1. 구글 블로그 - 안드로이드와 크롬의 새로운 AI 접근성 업데이트
  2. 프로젝트 유포니아 GitHub 페이지
  3. 세계 접근성 인식의 날 공식 사이트
반응형