본문 바로가기
IT

삼성전자, AI 업무 생산성 측정 지표 ‘트루벤치’ 개발

by 카메라의눈 2025. 9. 26.
반응형
정확성·속도·비용 등 종합 평가…AI 모델 도입 기준 제시
'할루시네이션' 문제 해결 목표, LLM 도입 속도 높일 듯

트루벤치

 

삼성전자가 업무용 AI(인공지능) 모델의 생산성을 객관적으로 측정하고 평가하는 새로운 지표인 '트루벤치(TrueBench)'를 개발했다고 25일 밝혔다. 이는 실제 업무 환경에서 대규모언어모델(LLM)의 효용성을 정확하게 판단하고 도입 기준을 제시하기 위한 목적으로 개발되었다.

반응형

최근 기업들은 업무 효율을 높이기 위해 LLM 기반의 생성형 AI 기술 도입을 적극적으로 검토하고 있으나, AI 모델의 성능을 실제 업무 생산성 향상으로 객관적으로 연결할 수 있는 기준이 부족하다는 지적이 꾸준히 제기되어 왔다. 특히 AI가 그럴듯한 거짓 정보를 생성하는 '할루시네이션(환각)' 문제 등으로 인해 도입 결정에 어려움을 겪는 경우가 많았다. 삼성전자는 이러한 불확실성을 해소하고, 사내외에 AI 모델을 성공적으로 적용하기 위한 토대를 마련하기 위해 이번 지표를 개발했다.

 

※ 리더보드 평가표: TRUEBench – a Hugging Face Space by SamsungResearch

 

TRUEBench - a Hugging Face Space by SamsungResearch

 

huggingface.co

'정확성·속도·비용' 등 7개 분야 종합 평가

트루벤치는 AI 모델이 특정 업무를 수행했을 때의 정확성(Accuracy), 속도(Latency), 비용(Cost) 등 핵심 요소를 포함해 총 7개 분야의 지표를 종합적으로 평가한다. 이 지표는 단순히 AI의 기술적 성능뿐 아니라, 실제 업무 환경에서 AI 모델이 얼마나 경제적이고 신뢰할 수 있게 작동하는지를 측정하는 데 중점을 둔다. 또한, 삼성전자가 자체 보유한 고품질의 업무 데이터셋을 기반으로 평가를 진행하여, 금융, 법률, 마케팅 등 전문 영역별 업무 환경에 최적화된 평가 기준을 제공하는 것이 특징이다.

 

 

 

"AI 도입 결정의 객관적 기준" 기대

삼성전자 관계자는 "트루벤치는 AI 모델 도입에 있어 막연했던 '업무 생산성 향상'을 측정 가능한 지표로 구체화했다는 데 의미가 크다"며, "특히 AI의 신뢰성을 저해하는 할루시네이션 문제를 정량적으로 평가할 수 있어, 기업들이 보다 확신을 가지고 AI를 업무에 적용할 수 있게 될 것"이라고 설명했다. 전문가들은 트루벤치와 같은 객관적 지표 개발이 LLM 시장의 투명성과 경쟁을 촉진하고, 기업들의 AI 도입 속도를 가속화하는 중요한 분기점이 될 것으로 평가하고 있다.

 

사내 활용 확대 및 AI 산업 표준화 기여

삼성전자는 트루벤치를 우선적으로 사내 LLM 도입 및 개발의 주요 기준으로 활용할 계획이다. 이를 통해 부서별 업무 특성에 가장 적합하고 생산성이 높은 AI 모델을 선별적으로 적용할 방침이다. 장기적으로는 트루벤치가 AI 모델 평가의 산업 표준으로 자리 잡아, 국내외 다양한 기업들이 AI 모델을 도입하고 관리하는 데 도움을 줄 것으로 기대하고 있다. 삼성전자 측은 "향후에도 지속적인 연구개발을 통해 지표를 고도화하고, AI 윤리 및 데이터 보안 영역까지 평가 범위를 확대할 것"이라고 밝혔다.

 

출처: 삼성전자 뉴스룸 : 삼성전자, AI 업무 생산성 측정 지표 '트루벤치(TrueBench)' 공개

반응형