본문으로 건너뛰기
피드

OpenAI, 과학 벤치마크 'FrontierScience' 공개

ai 약 4분
vote
0
댓글
북마크

OpenAI가 PhD 전문가 수준의 과학 문제를 측정하는 새 벤치마크 FrontierScience를 발표함. GPT-5.2가 Olympiad 77%, Research 25%로 1위를 기록했지만 개방형 연구 과제에서는 갈 길이 멀다는 것을 보여줌.

  • 1

    GPQA에서 GPT-4가 39%였던 것이 GPT-5.2로 92%까지 올라 기존 벤치마크 포화

  • 2

    Olympiad(올림피아드 메달리스트 42명 설계 100문제) + Research(PhD 과학자 45명 설계 60과제) 이중 트랙 구성

  • 3

    GPT-5.2가 양 트랙 모두 1위, Gemini 3 Pro는 Olympiad에서 76%로 거의 동급

  • 4

    Research 트랙 최고점이 25%로 개방형 연구 추론은 아직 크게 부족

왜 새 벤치마크가 필요한가

  • 2023년 11월 출시된 GPQA(PhD 전문가 작성 과학 문제)에서 GPT-4는 39%밖에 못 맞췄는데, 2년 만에 GPT-5.2가 92%를 찍음. 기존 벤치마크가 포화 상태라 더 어려운 시험이 필요해진 것
  • 기존 과학 벤치마크 대부분이 객관식 위주이거나, 이미 만점 수준으로 풀려버렸거나, 과학에 제대로 초점을 맞추지 않았음
  • FrontierScience는 물리, 화학, 생물학 전문가들이 직접 만들고 검증한 수백 개 문제로 구성됨

벤치마크 구성

  • Olympiad 트랙: 국제 올림피아드 메달리스트 42명(총 메달 109개)이 설계한 100문제. 단답형으로 채점
  • Research 트랙: PhD 과학자 45명이 설계한 60개 연구 과제. 10점 만점 루브릭으로 채점하며, 7점 이상이면 "정답"으로 처리됨
  • 전체 평가는 700개 이상의 텍스트 문제(골드 세트 160개)를 포함하고, 물리/화학/생물 하위 분야를 커버함

모델 성적표

  • GPT-5.2: Olympiad 77%, Research 25%로 1위 (xhigh 추론 설정)
  • Gemini 3 Pro: Olympiad 76%로 GPT-5.2와 거의 동급
  • Claude Opus 4.5, GPT-4o, o4-mini, o3도 평가 대상에 포함됨
  • Research 트랙은 최고 점수가 25%로, 개방형 연구 과제에서는 아직 갈 길이 멀다는 뜻

중요

> GPT-5.2가 Olympiad에서 77%를 기록했지만, Research 트랙 25%는 실제 연구 수준의 추론은 아직 한참 부족하다는 걸 보여줌

한계점

  • 모델이 진짜 새로운 가설을 생성하는 능력은 측정하지 못함
  • 영상 데이터나 실제 실험 장비와의 상호작용도 평가 범위 밖
  • 프론티어 모델들도 여전히 추론 오류, 계산 실수, 니치한 과학 개념 몰이해, 사실 오류를 범함
  • 문제 제작 과정에서 OpenAI 내부 모델에 대한 선별 편향이 있을 수 있음 (모델이 맞힌 문제는 제외했으므로)
  • Olympiad과 Research 골드 세트(100+60문제)는 오픈소스로 공개됨

기존 벤치마크를 포화시킨 모델들도 실제 연구 수준의 개방형 문제에서는 25%밖에 못 맞추는 현실. 벤치마크 난이도를 올리는 것 자체가 AI 과학 가속화의 진짜 수준을 드러내는 역할을 함.

댓글

댓글

댓글을 불러오는 중...