---
title: "OpenAI, 과학 벤치마크 'FrontierScience' 공개"
published: 2025-12-20T22:17:29.000Z
canonical: https://jeff.news/article/1072
---
# OpenAI, 과학 벤치마크 'FrontierScience' 공개

OpenAI가 PhD 전문가 수준의 과학 문제를 측정하는 새 벤치마크 FrontierScience를 발표함. GPT-5.2가 Olympiad 77%, Research 25%로 1위를 기록했지만 개방형 연구 과제에서는 갈 길이 멀다는 것을 보여줌.

## 왜 새 벤치마크가 필요한가

- 2023년 11월 출시된 GPQA(PhD 전문가 작성 과학 문제)에서 GPT-4는 39%밖에 못 맞췄는데, 2년 만에 GPT-5.2가 92%를 찍음. 기존 벤치마크가 포화 상태라 더 어려운 시험이 필요해진 것
- 기존 과학 벤치마크 대부분이 객관식 위주이거나, 이미 만점 수준으로 풀려버렸거나, 과학에 제대로 초점을 맞추지 않았음
- FrontierScience는 물리, 화학, 생물학 전문가들이 직접 만들고 검증한 수백 개 문제로 구성됨

## 벤치마크 구성

- **Olympiad 트랙**: 국제 올림피아드 메달리스트 42명(총 메달 109개)이 설계한 100문제. 단답형으로 채점
- **Research 트랙**: PhD 과학자 45명이 설계한 60개 연구 과제. 10점 만점 루브릭으로 채점하며, 7점 이상이면 "정답"으로 처리됨
- 전체 평가는 700개 이상의 텍스트 문제(골드 세트 160개)를 포함하고, 물리/화학/생물 하위 분야를 커버함

## 모델 성적표

- **GPT-5.2**: Olympiad 77%, Research 25%로 1위 (xhigh 추론 설정)
- **Gemini 3 Pro**: Olympiad 76%로 GPT-5.2와 거의 동급
- **Claude Opus 4.5**, GPT-4o, o4-mini, o3도 평가 대상에 포함됨
- Research 트랙은 최고 점수가 25%로, 개방형 연구 과제에서는 아직 갈 길이 멀다는 뜻

> [!IMPORTANT]
> GPT-5.2가 Olympiad에서 77%를 기록했지만, Research 트랙 25%는 실제 연구 수준의 추론은 아직 한참 부족하다는 걸 보여줌

## 한계점

- 모델이 진짜 새로운 가설을 생성하는 능력은 측정하지 못함
- 영상 데이터나 실제 실험 장비와의 상호작용도 평가 범위 밖
- 프론티어 모델들도 여전히 추론 오류, 계산 실수, 니치한 과학 개념 몰이해, 사실 오류를 범함
- 문제 제작 과정에서 OpenAI 내부 모델에 대한 선별 편향이 있을 수 있음 (모델이 맞힌 문제는 제외했으므로)
- Olympiad과 Research 골드 세트(100+60문제)는 오픈소스로 공개됨

## 핵심 포인트

- GPQA에서 GPT-4가 39%였던 것이 GPT-5.2로 92%까지 올라 기존 벤치마크 포화
- Olympiad(올림피아드 메달리스트 42명 설계 100문제) + Research(PhD 과학자 45명 설계 60과제) 이중 트랙 구성
- GPT-5.2가 양 트랙 모두 1위, Gemini 3 Pro는 Olympiad에서 76%로 거의 동급
- Research 트랙 최고점이 25%로 개방형 연구 추론은 아직 크게 부족

## 인사이트

기존 벤치마크를 포화시킨 모델들도 실제 연구 수준의 개방형 문제에서는 25%밖에 못 맞추는 현실. 벤치마크 난이도를 올리는 것 자체가 AI 과학 가속화의 진짜 수준을 드러내는 역할을 함.