OpenAI, 과학 벤치마크 'FrontierScience' 공개

ai 2025-12-20 약 4분

 tags

#AI #벤치마크 #OpenAI #GPT-5 #과학

vote

북마크

OpenAI가 PhD 전문가 수준의 과학 문제를 측정하는 새 벤치마크 FrontierScience를 발표함. GPT-5.2가 Olympiad 77%, Research 25%로 1위를 기록했지만 개방형 연구 과제에서는 갈 길이 멀다는 것을 보여줌.

1
GPQA에서 GPT-4가 39%였던 것이 GPT-5.2로 92%까지 올라 기존 벤치마크 포화
2
Olympiad(올림피아드 메달리스트 42명 설계 100문제) + Research(PhD 과학자 45명 설계 60과제) 이중 트랙 구성
3
GPT-5.2가 양 트랙 모두 1위, Gemini 3 Pro는 Olympiad에서 76%로 거의 동급
4
Research 트랙 최고점이 25%로 개방형 연구 추론은 아직 크게 부족

왜 새 벤치마크가 필요한가

2023년 11월 출시된 GPQA(PhD 전문가 작성 과학 문제)에서 GPT-4는 39%밖에 못 맞췄는데, 2년 만에 GPT-5.2가 92%를 찍음. 기존 벤치마크가 포화 상태라 더 어려운 시험이 필요해진 것
기존 과학 벤치마크 대부분이 객관식 위주이거나, 이미 만점 수준으로 풀려버렸거나, 과학에 제대로 초점을 맞추지 않았음
FrontierScience는 물리, 화학, 생물학 전문가들이 직접 만들고 검증한 수백 개 문제로 구성됨

벤치마크 구성

Olympiad 트랙: 국제 올림피아드 메달리스트 42명(총 메달 109개)이 설계한 100문제. 단답형으로 채점
Research 트랙: PhD 과학자 45명이 설계한 60개 연구 과제. 10점 만점 루브릭으로 채점하며, 7점 이상이면 "정답"으로 처리됨
전체 평가는 700개 이상의 텍스트 문제(골드 세트 160개)를 포함하고, 물리/화학/생물 하위 분야를 커버함

모델 성적표

GPT-5.2: Olympiad 77%, Research 25%로 1위 (xhigh 추론 설정)
Gemini 3 Pro: Olympiad 76%로 GPT-5.2와 거의 동급
Claude Opus 4.5, GPT-4o, o4-mini, o3도 평가 대상에 포함됨
Research 트랙은 최고 점수가 25%로, 개방형 연구 과제에서는 아직 갈 길이 멀다는 뜻

❗중요

> GPT-5.2가 Olympiad에서 77%를 기록했지만, Research 트랙 25%는 실제 연구 수준의 추론은 아직 한참 부족하다는 걸 보여줌

한계점

모델이 진짜 새로운 가설을 생성하는 능력은 측정하지 못함
영상 데이터나 실제 실험 장비와의 상호작용도 평가 범위 밖
프론티어 모델들도 여전히 추론 오류, 계산 실수, 니치한 과학 개념 몰이해, 사실 오류를 범함
문제 제작 과정에서 OpenAI 내부 모델에 대한 선별 편향이 있을 수 있음 (모델이 맞힌 문제는 제외했으므로)
Olympiad과 Research 골드 세트(100+60문제)는 오픈소스로 공개됨

기존 벤치마크를 포화시킨 모델들도 실제 연구 수준의 개방형 문제에서는 25%밖에 못 맞추는 현실. 벤치마크 난이도를 올리는 것 자체가 AI 과학 가속화의 진짜 수준을 드러내는 역할을 함.

다음 기사 (N)

댓글을 불러오는 중...

ai 2026-03-03

AI 코딩의 선(禪) - 에이전트 코딩 시대의 원칙들

Zen of Python에서 영감을 받아 정리한 에이전트 코딩 16가지 원칙. 코드의 한계비용이 0에 수렴하면서 개발자 역할이 코드 작성에서 문제 프레이밍, 피드백 루프 설계, 실패 모드 예측으로 이동하고 있음을 설명함.

ai 2026-03-03

PRX Part 3 - Text-to-Image 모델을 24시간 만에 훈련하기

Photoroom이 H200 GPU 32장, $1,500 예산으로 text-to-image diffusion 모델을 24시간 안에 훈련시킨 스피드런. X-prediction으로 VAE 없이 픽셀 공간 직접 훈련, TREAD 토큰 라우팅, REPA, perceptual loss 등 최적화 기법을 총동원한 실전 레시피를 코드와 함께 오픈소스로 공개함.

ai 2026-01-21

ChatGPT를 쓰면 뇌에 무슨 일이 생길까: AI 보조 도구의 인지 부채

MIT 미디어랩 연구에서 LLM 사용자가 4개월간 뇌 연결성, 언어 능력, 행동 수준 모두에서 도구 미사용 그룹보다 낮은 성과를 보임. LLM 의존이 인지 부채를 축적시킨다는 경고

OpenAI, 과학 벤치마크 'FrontierScience' 공개

요약

핵심 포인트

분석

왜 새 벤치마크가 필요한가

벤치마크 구성

모델 성적표

한계점

인사이트

댓글

댓글

OpenAI, 과학 벤치마크 'FrontierScience' 공개

요약

핵심 포인트

분석

왜 새 벤치마크가 필요한가

벤치마크 구성

모델 성적표

한계점

인사이트

댓글

댓글

관련 기사