---
title: "오픈AI GPT-5.5 공개 — 적은 자원으로 더 높은 성능, 그래도 앤스로픽 미토스엔 밀렸다"
published: 2026-04-24T08:31:02.155Z
canonical: https://jeff.news/article/1904
---
# 오픈AI GPT-5.5 공개 — 적은 자원으로 더 높은 성능, 그래도 앤스로픽 미토스엔 밀렸다

오픈AI가 GPT-5.5를 출시했다. 전작 대비 적은 컴퓨팅 자원으로 더 높은 성능을 낸다는 효율 중심 업그레이드다. 다만 Terminal-Bench 2.0에서 앤스로픽 미토스(92.1%)에 10%p 차이로 밀려 성능 1위 자리는 되찾지 못했다.

- 오픈AI가 23일(현지시간) GPT-5.5를 출시 — 전작 대비 적은 컴퓨팅 자원으로 더 높은 성능을 내는 걸 핵심 세일즈 포인트로 내세움
  - 그렉 브록만 오픈AI 사장 왈 "5.4와 비교해 더 적은 토큰으로 더 빠르고 날카롭게 사고한다"
  - 토큰당 지연 시간은 전작과 비슷하게 유지하면서도 지능만 끌어올렸다는 주장
  - "컴퓨팅 자원 경제(compute economy)로 이동하고 있다"는 발언에서 보듯, 이제는 raw 성능보다 '비용 대비 성능'이 싸움터가 되는 분위기

### 벤치마크 — 전작 대비 개선, 그러나 미토스엔 밀림

- 전문직 업무 1320개 수행 능력을 평가하는 GDPval에서 84.9% 성공률 기록 (전작 대비 +1.9%p)
- AI 에이전트 코딩 능력 측정 벤치인 Terminal-Bench 2.0에서는 82.7% (전작 대비 +7.5%p) — 코딩 쪽에서 확실히 점프
- 문제는 경쟁사 앤스로픽의 '미토스(mythos)'
  - 같은 Terminal-Bench 2.0에서 미토스는 92.1% — GPT-5.5를 거의 10%p 차이로 압도
  - 미토스는 40개 파트너사에만 제한적으로 공개된 상태라 일반 사용자가 접근하긴 힘듦

> [!IMPORTANT]
> 이번 출시의 진짜 메시지는 "성능 1위 탈환"이 아니라 "같은 가격에 더 많이 쓰게 해주겠다"임. 엔터프라이즈 관점에선 이게 오히려 실용적인 포인트

### 비교 질문엔 즉답 회피

- 오픈AI 측은 미토스와의 성능 비교 질문에 "성능 지표를 확인해보라"며 즉답을 피함
- 파라미터 수가 미토스(10조 개)보다 많은지 물었을 때도 "답하기 어렵다"고 응답 — 모델 스펙 공개에 보수적인 기조 유지
- 앤스로픽 미토스의 10조 파라미터라는 수치 자체도 업계 관찰자 입장에선 흥미로운 정보

---

## 기술 맥락

GPT-5.5의 진짜 포인트는 '토큰당 지연 시간은 그대로, 지능은 더 높게'라는 효율성 측면이에요. 예전엔 모델 하나 더 똑똑하게 만들려면 파라미터를 키우고 연산량을 더 쏟아부어야 했는데, 이제는 같은 연산 예산 안에서 더 나은 결과를 뽑아내는 방향으로 경쟁축이 이동하고 있거든요. 기업 입장에선 이게 돈 문제거든요. API 쓸 때마다 토큰당 비용이 나가는데, 같은 답을 더 적은 토큰으로 뽑아내면 곧바로 운영비 절감으로 이어져요.

Terminal-Bench 2.0은 AI 에이전트가 실제 셸 환경에서 명령어를 실행하며 멀티스텝 작업을 수행하는 능력을 측정하는 벤치마크예요. 단순히 "이 코드 짜줘"가 아니라 "파일을 찾고, 의존성을 설치하고, 테스트를 돌려서 실패하면 고쳐라" 같은 실무형 시나리오를 다루거든요. 여기서 82.7%가 나왔다는 건 실제 개발 워크플로우에 꽂아 쓸 만한 수준에 가까워졌다는 뜻이에요.

GDPval은 오픈AI가 만든 '실제 직업군 업무 수행 능력' 평가 체계로, 1320개의 전문직 태스크를 돌려서 인간 수준을 얼마나 대체 가능한지 보는 지표예요. 84.9%라는 숫자가 인상적이긴 한데, 벤치 설계자가 모델 만든 회사랑 같다는 건 감안해서 볼 필요가 있어요.

## 핵심 포인트

- Terminal-Bench 2.0에서 82.7% 기록, 전작 GPT-5.4 대비 7.5%p 상승
- GDPval 전문직 업무 평가에서 84.9% 성공률, 전작 대비 1.9%p 개선
- 앤스로픽 미토스는 Terminal-Bench 2.0에서 92.1%로 여전히 앞서있는 상태
- 오픈AI는 미토스 대비 파라미터 수나 성능 비교 질문에 즉답 회피
- 성능 경쟁 축이 '절대 성능'에서 '비용 대비 성능(compute economy)'으로 이동

## 인사이트

오픈AI가 '성능 1위'보다 '같은 값에 더 많이'를 선택한 듯한 출시. 미토스가 프론티어를 가져간 사이 오픈AI는 엔터프라이즈 경제성에 집중하는 전략이 보인다.