기사 메일전송
삼성전자, AI 업무 생산성 벤치마크 ‘트루벤치’ 공개
  • 기사등록 2025-09-25 15:22:06
기사수정

삼성전자가 자체 개발한 AI 업무 생산성 평가 지표 ‘트루벤치’를 공식 공개했다. 이번 지표는 AI 모델의 실제 업무 활용 성능을 정밀하게 측정할 수 있도록 설계돼, 기존 벤치마크의 한계를 보완한 것이 특징이다.

 허깅페이스에 공개된 트루벤치(TRUEBench) 사이트 메인 화면/이미지=삼성전자 제공

트루벤치는 삼성전자 DX부문 선행 연구개발 조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발했다. 

 

현재 기업들이 업무 전반에 AI를 도입하고 있지만, 기존 벤치마크는 대부분 영어 기반 단발성 대화 평가에 그쳐 실제 생산성을 가늠하기 어렵다는 점에서 출발했다.

 

새로운 벤치마크는 총 10개 카테고리, 46개 업무, 2485개 세부 항목으로 구성됐다. 콘텐츠 생성, 데이터 분석, 문서 요약·번역, 연속 대화 등 실제 기업 환경에서 자주 활용되는 오피스 업무를 기반으로 평가가 이뤄진다. 

 

사용자는 짧은 요청부터 최대 2만 자에 달하는 장문 문서 요약까지 다양한 업무 시나리오에서 AI 모델의 성능을 검증할 수 있다.

 

또한, 트루벤치는 최대 5개 모델을 동시에 비교할 수 있는 기능을 제공한다. 평균 응답 길이, 효율성 지표 등 정량적 데이터를 함께 공개해 AI 모델 간 성능 차이를 직관적으로 확인할 수 있다. 

 

결과는 전체 점수뿐만 아니라 각 카테고리별 세부 점수까지 확인할 수 있어 기존 벤치마크보다 정밀한 분석이 가능하다.

 

언어 지원 범위도 넓다. 영어, 한국어, 일본어, 중국어, 스페인어 등 총 12개 언어를 지원하며, 특히 영어·한국어 등 다국어가 혼합된 실제 글로벌 비즈니스 환경을 반영한 교차 언어 번역 평가도 가능하다.

 

삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스에 트루벤치의 데이터 샘플과 AI 모델 평가 결과를 공개하고 리더보드를 운영한다. 이를 통해 업계와 연구자들이 다양한 모델의 생산성 성능을 비교·검증할 수 있도록 했다.

 

트루벤치는 평가 과정의 신뢰성 확보를 위해 AI 기반 교차 검증 방식을 도입했다. 사람이 설계한 평가 기준을 AI가 반복적으로 검토해 오류, 모순, 불필요한 제약을 최소화하며, 이를 통해 보다 일관성 있고 객관적인 평가 결과를 제공한다. 

 

답변의 정확성뿐만 아니라 사용자의 의도와 맥락 파악 여부까지 반영해 실제 활용성과 신뢰성을 높였다.

 

전경훈 삼성전자 DX부문 최고기술책임자(CTO) 겸 삼성리서치장은 “삼성리서치는 다양한 실제 적용 사례를 통해 차별화된 생산성 AI 기술 경쟁력을 보유하고 있다”며, “트루벤치 공개를 통해 글로벌 AI 생태계에서 생산성 성능 평가의 기준을 제시하고, 삼성전자의 기술 리더십을 강화해 나가겠다”고 밝혔다.


[경제엔미디어=김재호 기자]

기사수정
  • 기사등록 2025-09-25 15:22:06
인터넷신문윤리위원회
확대이미지 영역
  •  기사 이미지 도심 속 자연 생태계...패랭이꽃
  •  기사 이미지 도심 속 자연 생태계...포인세티아
  •  기사 이미지 도심 속 자연 생태계...천사의 나팔꽃
최신뉴스더보기
한얼트로피
코리아아트가이드_테스트배너
정책브리핑_테스트배너
유니세프_테스트배너
국민신문고_테스트배너
정부24_테스트배너
모바일 버전 바로가기