사회
AI 학술 겨룬 ‘인류의 마지막 시험’…최고 성적은 구글 ‘제미나이 3 프로’
손예지
입력 : 2026.01.29 14:52
조회수 : 673
0
0
100여 개 세부 학문 아우른 멀티모달 문제로 구성…한국 연구자도 출제 참여
제미나이 3 프로 38.3%로 1위, GPT-5.2·오푸스·딥시크 순
HLE는 수학·자연과학·공학·인문학 등 100여 개 세부 학문 분야를 아우르는 2천500문항으로 구성된 AI 학술 시험으로, 일부 문항은 텍스트와 이미지를 함께 이해해야 풀 수 있는 멀티모달 문제로 출제됐습니다.
한국 연구자들도 문제 출제에 참여한 것으로 확인됐습니다.
국내 기관 소속으로는 AI 스타트업 에임인텔리전스의 박하언 최고기술책임자(CTO)와 김대현 연세대 교수, KAIST·한국기술교육대 소속 연구자 등 모두 6명이 논문 공동 저자로 이름을 올렸습니다.
HLE는 지난해 1월 미국 비영리단체 AI안전센터(CAIS)와 스타트업 스케일AI가 처음 공개했으며, 약 1년 만에 공식 학술 논문으로 정식 발표됐습니다.
이 시험은 최근 AI들이 기존 벤치마크에서 90점 이상 고득점을 기록하며 변별력을 잃자, 이를 뛰어넘는 ‘최후의 시험’을 만들기 위해 기획됐습니다.
전 세계 50개국, 500여 개 기관에서 교수·연구자 약 1천여 명이 출제에 참여했습니다.
각 문항은 출제 당시 최고 성능의 AI 모델들도 풀지 못한 문제들로 엄선됐으며, 분야별 전문가 평가를 거쳐 난이도와 변별력이 검증된 문항만 최종 시험에 포함됐습니다.
문항 구성은 수학이 전체의 41%로 가장 많았으며, 묘비에서 발견된 로마 비문을 번역하거나 벌새의 종자골이 몇 쌍의 힘줄을 지지하는지를 묻는 등 고도의 전문 지식을 요구하는 문제가 다수 출제됐습니다.
AI안전센터가 공개한 평가 결과에 따르면 구글의 제미나이 3 프로가 정확도 38.3%로 가장 높은 점수를 기록했습니다.
이어 오픈AI의 GPT-5.2(29.9%), 오푸스 4.5(25.8%), 딥시크 3.2(21.8%) 순이었습니다.
정부 주도의 독자 파운데이션 모델 경쟁에 참여 중인 국내 AI 모델들은 상대적으로 낮은 점수를 기록했습니다.
HLE 문항 중 텍스트 기반 문제만 선별해 평가한 결과, LG AI연구원의 엑사원(EXAONE)은 13.6점을 기록했으며, 업스테이지의 솔라 오픈은 10.5점, SK텔레콤의 에이닷엑스 케이원(A.X K1)은 7.6점으로 나타났습니다.
KNN 뉴스는 24시간 여러분의 제보를 기다립니다.
▷ 전화
부산 051-850-9000
경남 055-283-0505
▷ 이메일 jebo@knn.co.kr
▷ knn 홈페이지/앱 접속, 시청자 제보 누르기
▷ 카카오톡 친구찾기 @knn
▷ 전화
부산 051-850-9000
경남 055-283-0505
▷ 이메일 jebo@knn.co.kr
▷ knn 홈페이지/앱 접속, 시청자 제보 누르기
▷ 카카오톡 친구찾기 @knn
디지털 뉴스팀 손예지
sonyj@knn.co.kr
많이 본 뉴스
주요뉴스
-
시민공원 잔디공원 개방, 부산의 새로운 봄 풍경2026.04.05
-
산불 피해목 재활용, 탄소 저장 효과 기대2026.04.05
-
부산 내성*수영강변 지하차도 지반 침하로 출입 통제2026.04.05
-
기후위기 여파 국립공원 침엽수 집단고사 '심각'2026.04.05
-
요란한 봄비에 벚꽃엔딩... 농가는 '단비'2026.04.04
-
줄 이은 대형 정책 발표 "숙원해법" vs "선거용 공약"2026.04.04
-
국민의힘 경남 시장군수 3차 공천 결과 발표2026.04.04
-
에너지 수급 위기 속 고리2호기 3년 만에 재가동2026.04.04
-
[현장중계]롯데 자이언츠 홈 개막전...사직구장 '들썩'2026.04.03
-
더불어민주당 부산시장 후보들 '내가 적임자'2026.04.03
페이스북
트위터
카카오톡
URL복사