본문으로 건너뛰기
피드

오픈AI GPT-5.5 공개 — 적은 자원으로 더 높은 성능, 그래도 앤스로픽 미토스엔 밀렸다

ai-ml 약 4분
vote
0
댓글
북마크

오픈AI가 GPT-5.5를 출시했다. 전작 대비 적은 컴퓨팅 자원으로 더 높은 성능을 낸다는 효율 중심 업그레이드다. 다만 Terminal-Bench 2.0에서 앤스로픽 미토스(92.1%)에 10%p 차이로 밀려 성능 1위 자리는 되찾지 못했다.

  • 1

    Terminal-Bench 2.0에서 82.7% 기록, 전작 GPT-5.4 대비 7.5%p 상승

  • 2

    GDPval 전문직 업무 평가에서 84.9% 성공률, 전작 대비 1.9%p 개선

  • 3

    앤스로픽 미토스는 Terminal-Bench 2.0에서 92.1%로 여전히 앞서있는 상태

  • 4

    오픈AI는 미토스 대비 파라미터 수나 성능 비교 질문에 즉답 회피

  • 5

    성능 경쟁 축이 '절대 성능'에서 '비용 대비 성능(compute economy)'으로 이동

  • 오픈AI가 23일(현지시간) GPT-5.5를 출시 — 전작 대비 적은 컴퓨팅 자원으로 더 높은 성능을 내는 걸 핵심 세일즈 포인트로 내세움
    • 그렉 브록만 오픈AI 사장 왈 "5.4와 비교해 더 적은 토큰으로 더 빠르고 날카롭게 사고한다"
    • 토큰당 지연 시간은 전작과 비슷하게 유지하면서도 지능만 끌어올렸다는 주장
    • "컴퓨팅 자원 경제(compute economy)로 이동하고 있다"는 발언에서 보듯, 이제는 raw 성능보다 '비용 대비 성능'이 싸움터가 되는 분위기

벤치마크 — 전작 대비 개선, 그러나 미토스엔 밀림

  • 전문직 업무 1320개 수행 능력을 평가하는 GDPval에서 84.9% 성공률 기록 (전작 대비 +1.9%p)
  • AI 에이전트 코딩 능력 측정 벤치인 Terminal-Bench 2.0에서는 82.7% (전작 대비 +7.5%p) — 코딩 쪽에서 확실히 점프
  • 문제는 경쟁사 앤스로픽의 '미토스(mythos)'
    • 같은 Terminal-Bench 2.0에서 미토스는 92.1% — GPT-5.5를 거의 10%p 차이로 압도
    • 미토스는 40개 파트너사에만 제한적으로 공개된 상태라 일반 사용자가 접근하긴 힘듦

중요

> 이번 출시의 진짜 메시지는 "성능 1위 탈환"이 아니라 "같은 가격에 더 많이 쓰게 해주겠다"임. 엔터프라이즈 관점에선 이게 오히려 실용적인 포인트

비교 질문엔 즉답 회피

  • 오픈AI 측은 미토스와의 성능 비교 질문에 "성능 지표를 확인해보라"며 즉답을 피함
  • 파라미터 수가 미토스(10조 개)보다 많은지 물었을 때도 "답하기 어렵다"고 응답 — 모델 스펙 공개에 보수적인 기조 유지
  • 앤스로픽 미토스의 10조 파라미터라는 수치 자체도 업계 관찰자 입장에선 흥미로운 정보

기술 맥락

GPT-5.5의 진짜 포인트는 '토큰당 지연 시간은 그대로, 지능은 더 높게'라는 효율성 측면이에요. 예전엔 모델 하나 더 똑똑하게 만들려면 파라미터를 키우고 연산량을 더 쏟아부어야 했는데, 이제는 같은 연산 예산 안에서 더 나은 결과를 뽑아내는 방향으로 경쟁축이 이동하고 있거든요. 기업 입장에선 이게 돈 문제거든요. API 쓸 때마다 토큰당 비용이 나가는데, 같은 답을 더 적은 토큰으로 뽑아내면 곧바로 운영비 절감으로 이어져요.

Terminal-Bench 2.0은 AI 에이전트가 실제 셸 환경에서 명령어를 실행하며 멀티스텝 작업을 수행하는 능력을 측정하는 벤치마크예요. 단순히 "이 코드 짜줘"가 아니라 "파일을 찾고, 의존성을 설치하고, 테스트를 돌려서 실패하면 고쳐라" 같은 실무형 시나리오를 다루거든요. 여기서 82.7%가 나왔다는 건 실제 개발 워크플로우에 꽂아 쓸 만한 수준에 가까워졌다는 뜻이에요.

GDPval은 오픈AI가 만든 '실제 직업군 업무 수행 능력' 평가 체계로, 1320개의 전문직 태스크를 돌려서 인간 수준을 얼마나 대체 가능한지 보는 지표예요. 84.9%라는 숫자가 인상적이긴 한데, 벤치 설계자가 모델 만든 회사랑 같다는 건 감안해서 볼 필요가 있어요.

오픈AI가 '성능 1위'보다 '같은 값에 더 많이'를 선택한 듯한 출시. 미토스가 프론티어를 가져간 사이 오픈AI는 엔터프라이즈 경제성에 집중하는 전략이 보인다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

엔비디아와 네이버, 기가와트급 AI 클라우드 동맹 띄운다

젠슨 황 엔비디아 최고경영자가 네이버 1784를 찾아 네이버와 함께 한국을 시작으로 전 세계에 거대한 AI 클라우드를 구축하겠다고 말했다. 네이버는 엔비디아와 국내 최대 하이퍼스케일 데이터센터 ‘각 세종’의 4배 규모에 해당하는 기가와트급 AI 팩토리 구축에 합의했다고 밝혔다.

ai-ml

젠슨 황이 네이버 1784에 온 이유, GPU 공급을 넘어 AI 클라우드 판 키우기

젠슨 황 엔비디아 CEO가 네이버 1784를 방문해 이해진 의장과 AI 인프라 협력 확대를 공식화함. 네이버는 엔비디아와 글로벌 AI 팩토리 사업을 추진하고, 2027년 55MW를 시작으로 2028년 200MW, 장기적으로 GW급 인프라까지 보겠다는 계획을 내놨음.

ai-ml

정부 2조 GPU 사업, 네이버클라우드·삼성SDS·엘리스그룹이 가져감

과기정통부가 2조800억원 규모의 첨단 GPU 확보 사업자로 네이버클라우드, 삼성SDS, 엘리스그룹을 선정함. 엔비디아 베라루빈 2천16장과 B300 7천688장, 총 9천704장을 확보해 공공·민간 AI 개발에 투입할 계획임.

ai-ml

LG CNS, 바이브 코딩을 넘어 기업 시스템까지 이해하는 AI 개발자 공개

LG CNS가 대규모 IT 시스템 구축·운영 전 과정을 자동화하는 에이전틱 AI 개발 플랫폼 AIND를 출시했다. 자연어 요구사항 입력부터 분석·설계, 코딩, 테스트·품질 검증까지 여러 AI 에이전트가 협업하고, 기업별 개발 표준·보안 규정·소스코드를 구조화한 지식 파운데이션으로 기존 시스템과의 충돌을 줄이는 방식이다.

ai-ml

서울대에 뜬 젠슨 황, AI 에이전트 체험장에 학생들 몰렸다

엔비디아가 서울대에서 학생, 빌더, 엔지니어를 대상으로 AI 에이전트 체험 행사를 열었다. 참가자들은 OpenClaw, NemoClaw, Nemotron을 활용해 로컬, 클라우드 VM, 엣지 디바이스 환경에서 자율 AI 에이전트가 동작하는 방식을 살펴봤고, 젠슨 황 CEO 등장으로 현장 열기가 크게 올라갔다.