사회

AI 학술 겨룬 ‘인류의 마지막 시험’…최고 성적은 구글 ‘제미나이 3 프로’

손예지 입력 : 2026.01.29 14:52

AI 학술 겨룬 ‘인류의 마지막 시험’…최고 성적은 구글 ‘제미나이 3 프로’

100여 개 세부 학문 아우른 멀티모달 문제로 구성…한국 연구자도 출제 참여
제미나이 3 프로 38.3%로 1위, GPT-5.2·오푸스·딥시크 순

전 세계 최신 인공지능(AI) 모델들이 각종 시험을 손쉽게 통과하는 가운데, 고개를 떨군 초고난도 벤치마크 시험 ‘인류의 마지막 시험(Humanity’s Last Exam·HLE)’이 29일 국제 학술지 네이처를 통해 공개됐습니다.

HLE는 수학·자연과학·공학·인문학 등 100여 개 세부 학문 분야를 아우르는 2천500문항으로 구성된 AI 학술 시험으로, 일부 문항은 텍스트와 이미지를 함께 이해해야 풀 수 있는 멀티모달 문제로 출제됐습니다.

한국 연구자들도 문제 출제에 참여한 것으로 확인됐습니다.

국내 기관 소속으로는 AI 스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO)와 김대현 연세대 교수, KAIST·한국기술교육대 소속 연구자 등 모두 6명이 논문 공동 저자로 이름을 올렸습니다.

HLE는 지난해 1월 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 처음 공개했으며, 약 1년 만에 공식 학술 논문으로 정식 발표됐습니다.

이 시험은 최근 AI들이 기존 벤치마크에서 90점 이상 고득점을 기록하며 변별력을 잃자, 이를 뛰어넘는 ‘최후의 시험’을 만들기 위해 기획됐습니다.

전 세계 50개국, 500여 개 기관에서 교수·연구자 약 1천여 명이 출제에 참여했습니다.

각 문항은 출제 당시 최고 성능의 AI 모델들도 풀지 못한 문제들로 엄선됐으며, 분야별 전문가 평가를 거쳐 난이도와 변별력이 검증된 문항만 최종 시험에 포함됐습니다.

문항 구성은 수학이 전체의 41%로 가장 많았으며, 묘비에서 발견된 로마 비문을 번역하거나 벌새의 종자골이 몇 쌍의 힘줄을 지지하는지를 묻는 등 고도의 전문 지식을 요구하는 문제가 다수 출제됐습니다.

AI안전센터가 공개한 평가 결과에 따르면 구글의 제미나이 3 프로가 정확도 38.3%로 가장 높은 점수를 기록했습니다.

이어 오픈AI의 GPT-5.2(29.9%), 오푸스 4.5(25.8%), 딥시크 3.2(21.8%) 순이었습니다.

정부 주도의 독자 파운데이션 모델 경쟁에 참여 중인 국내 AI 모델들은 상대적으로 낮은 점수를 기록했습니다.

HLE 문항 중 텍스트 기반 문제만 선별해 평가한 결과, LG AI연구원의 엑사원(EXAONE)은 13.6점을 기록했으며, 업스테이지의 솔라 오픈은 10.5점, SK텔레콤의 에이닷엑스 케이원(A.X K1)은 7.6점으로 나타났습니다.

KNN 뉴스는 24시간 여러분의 제보를 기다립니다.

▷ 전화
부산 051-850-9000
경남 055-283-0505
▷ 이메일 jebo@knn.co.kr
▷ knn 홈페이지/앱 접속, 시청자 제보 누르기
▷ 카카오톡 친구찾기 @knn

디지털 뉴스팀 손예지

sonyj@knn.co.kr

손예지 의 기사 더보기

AI 학술 겨룬 ‘인류의 마지막 시험’…최고 성적은 구글 ‘제미나이 3 프로’

많이 본 뉴스

주요뉴스