사회
AI 학술 겨룬 ‘인류의 마지막 시험’…최고 성적은 구글 ‘제미나이 3 프로’
손예지
입력 : 2026.01.29 14:52
조회수 : 362
0
0
100여 개 세부 학문 아우른 멀티모달 문제로 구성…한국 연구자도 출제 참여
제미나이 3 프로 38.3%로 1위, GPT-5.2·오푸스·딥시크 순
HLE는 수학·자연과학·공학·인문학 등 100여 개 세부 학문 분야를 아우르는 2천500문항으로 구성된 AI 학술 시험으로, 일부 문항은 텍스트와 이미지를 함께 이해해야 풀 수 있는 멀티모달 문제로 출제됐습니다.
한국 연구자들도 문제 출제에 참여한 것으로 확인됐습니다.
국내 기관 소속으로는 AI 스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO)와 김대현 연세대 교수, KAIST·한국기술교육대 소속 연구자 등 모두 6명이 논문 공동 저자로 이름을 올렸습니다.
HLE는 지난해 1월 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 처음 공개했으며, 약 1년 만에 공식 학술 논문으로 정식 발표됐습니다.
이 시험은 최근 AI들이 기존 벤치마크에서 90점 이상 고득점을 기록하며 변별력을 잃자, 이를 뛰어넘는 ‘최후의 시험’을 만들기 위해 기획됐습니다.
전 세계 50개국, 500여 개 기관에서 교수·연구자 약 1천여 명이 출제에 참여했습니다.
각 문항은 출제 당시 최고 성능의 AI 모델들도 풀지 못한 문제들로 엄선됐으며, 분야별 전문가 평가를 거쳐 난이도와 변별력이 검증된 문항만 최종 시험에 포함됐습니다.
문항 구성은 수학이 전체의 41%로 가장 많았으며, 묘비에서 발견된 로마 비문을 번역하거나 벌새의 종자골이 몇 쌍의 힘줄을 지지하는지를 묻는 등 고도의 전문 지식을 요구하는 문제가 다수 출제됐습니다.
AI안전센터가 공개한 평가 결과에 따르면 구글의 제미나이 3 프로가 정확도 38.3%로 가장 높은 점수를 기록했습니다.
이어 오픈AI의 GPT-5.2(29.9%), 오푸스 4.5(25.8%), 딥시크 3.2(21.8%) 순이었습니다.
정부 주도의 독자 파운데이션 모델 경쟁에 참여 중인 국내 AI 모델들은 상대적으로 낮은 점수를 기록했습니다.
HLE 문항 중 텍스트 기반 문제만 선별해 평가한 결과, LG AI연구원의 엑사원(EXAONE)은 13.6점을 기록했으며, 업스테이지의 솔라 오픈은 10.5점, SK텔레콤의 에이닷엑스 케이원(A.X K1)은 7.6점으로 나타났습니다.
KNN 뉴스는 24시간 여러분의 제보를 기다립니다.
▷ 전화
부산 051-850-9000
경남 055-283-0505
▷ 이메일 jebo@knn.co.kr
▷ knn 홈페이지/앱 접속, 시청자 제보 누르기
▷ 카카오톡 친구찾기 @knn
▷ 전화
부산 051-850-9000
경남 055-283-0505
▷ 이메일 jebo@knn.co.kr
▷ knn 홈페이지/앱 접속, 시청자 제보 누르기
▷ 카카오톡 친구찾기 @knn
디지털 뉴스팀 손예지
sonyj@knn.co.kr
많이 본 뉴스
주요뉴스
-
노란봉투법 변수... HMM 부산 이전 '안갯속'2026.02.03
-
여권 시장 경선체제 갖춰가는데... 국민의힘은 '잠잠'2026.02.03
-
보석으로 풀려나자마자 또 주식 사기2026.02.03
-
'경남 딸기' K푸드 열풍 타고 한국 넘어 세계로!2026.02.03
-
계약금 100만원 냈는데...위약금 5,200만 원?2026.02.02
-
해수부장관 공백 장기화... 지역 현안 차질 우려2026.02.02
-
말의 해, 부산*경남 '말 산업' 다변화2026.02.02
-
부산시 공공 문화사업 지역 기업 소외 심각2026.02.02
-
냉동창고 암모니아 누출, 1명 이송2026.02.02
-
건조특보 지속... 부산*경남 잇단 화재 '비상'2026.02.01
페이스북
트위터
카카오톡
URL복사