OpenAI, 과학 벤치마크 'FrontierScience' 공개
OpenAI가 PhD 전문가 수준의 과학 문제를 측정하는 새 벤치마크 FrontierScience를 발표함. GPT-5.2가 Olympiad 77%, Research 25%로 1위를 기록했지만 개방형 연구 과제에서는 갈 길이 멀다는 것을 보여줌.
- 1
GPQA에서 GPT-4가 39%였던 것이 GPT-5.2로 92%까지 올라 기존 벤치마크 포화
- 2
Olympiad(올림피아드 메달리스트 42명 설계 100문제) + Research(PhD 과학자 45명 설계 60과제) 이중 트랙 구성
- 3
GPT-5.2가 양 트랙 모두 1위, Gemini 3 Pro는 Olympiad에서 76%로 거의 동급
- 4
Research 트랙 최고점이 25%로 개방형 연구 추론은 아직 크게 부족
기존 벤치마크를 포화시킨 모델들도 실제 연구 수준의 개방형 문제에서는 25%밖에 못 맞추는 현실. 벤치마크 난이도를 올리는 것 자체가 AI 과학 가속화의 진짜 수준을 드러내는 역할을 함.
관련 기사
AI 코딩의 선(禪) - 에이전트 코딩 시대의 원칙들
Zen of Python에서 영감을 받아 정리한 에이전트 코딩 16가지 원칙. 코드의 한계비용이 0에 수렴하면서 개발자 역할이 코드 작성에서 문제 프레이밍, 피드백 루프 설계, 실패 모드 예측으로 이동하고 있음을 설명함.
PRX Part 3 - Text-to-Image 모델을 24시간 만에 훈련하기
Photoroom이 H200 GPU 32장, $1,500 예산으로 text-to-image diffusion 모델을 24시간 안에 훈련시킨 스피드런. X-prediction으로 VAE 없이 픽셀 공간 직접 훈련, TREAD 토큰 라우팅, REPA, perceptual loss 등 최적화 기법을 총동원한 실전 레시피를 코드와 함께 오픈소스로 공개함.
ChatGPT를 쓰면 뇌에 무슨 일이 생길까: AI 보조 도구의 인지 부채
MIT 미디어랩 연구에서 LLM 사용자가 4개월간 뇌 연결성, 언어 능력, 행동 수준 모두에서 도구 미사용 그룹보다 낮은 성과를 보임. LLM 의존이 인지 부채를 축적시킨다는 경고
댓글
댓글
댓글을 불러오는 중...