본문으로 건너뛰기
피드

오픈AI GPT-5.5 공개 — 적은 자원으로 더 높은 성능, 그래도 앤스로픽 미토스엔 밀렸다

ai-ml 약 4분

오픈AI가 GPT-5.5를 출시했다. 전작 대비 적은 컴퓨팅 자원으로 더 높은 성능을 낸다는 효율 중심 업그레이드다. 다만 Terminal-Bench 2.0에서 앤스로픽 미토스(92.1%)에 10%p 차이로 밀려 성능 1위 자리는 되찾지 못했다.

  • 1

    Terminal-Bench 2.0에서 82.7% 기록, 전작 GPT-5.4 대비 7.5%p 상승

  • 2

    GDPval 전문직 업무 평가에서 84.9% 성공률, 전작 대비 1.9%p 개선

  • 3

    앤스로픽 미토스는 Terminal-Bench 2.0에서 92.1%로 여전히 앞서있는 상태

  • 4

    오픈AI는 미토스 대비 파라미터 수나 성능 비교 질문에 즉답 회피

  • 5

    성능 경쟁 축이 '절대 성능'에서 '비용 대비 성능(compute economy)'으로 이동

  • 오픈AI가 23일(현지시간) GPT-5.5를 출시 — 전작 대비 적은 컴퓨팅 자원으로 더 높은 성능을 내는 걸 핵심 세일즈 포인트로 내세움
    • 그렉 브록만 오픈AI 사장 왈 "5.4와 비교해 더 적은 토큰으로 더 빠르고 날카롭게 사고한다"
    • 토큰당 지연 시간은 전작과 비슷하게 유지하면서도 지능만 끌어올렸다는 주장
    • "컴퓨팅 자원 경제(compute economy)로 이동하고 있다"는 발언에서 보듯, 이제는 raw 성능보다 '비용 대비 성능'이 싸움터가 되는 분위기

벤치마크 — 전작 대비 개선, 그러나 미토스엔 밀림

  • 전문직 업무 1320개 수행 능력을 평가하는 GDPval에서 84.9% 성공률 기록 (전작 대비 +1.9%p)
  • AI 에이전트 코딩 능력 측정 벤치인 Terminal-Bench 2.0에서는 82.7% (전작 대비 +7.5%p) — 코딩 쪽에서 확실히 점프
  • 문제는 경쟁사 앤스로픽의 '미토스(mythos)'
    • 같은 Terminal-Bench 2.0에서 미토스는 92.1% — GPT-5.5를 거의 10%p 차이로 압도
    • 미토스는 40개 파트너사에만 제한적으로 공개된 상태라 일반 사용자가 접근하긴 힘듦

중요

> 이번 출시의 진짜 메시지는 "성능 1위 탈환"이 아니라 "같은 가격에 더 많이 쓰게 해주겠다"임. 엔터프라이즈 관점에선 이게 오히려 실용적인 포인트

비교 질문엔 즉답 회피

  • 오픈AI 측은 미토스와의 성능 비교 질문에 "성능 지표를 확인해보라"며 즉답을 피함
  • 파라미터 수가 미토스(10조 개)보다 많은지 물었을 때도 "답하기 어렵다"고 응답 — 모델 스펙 공개에 보수적인 기조 유지
  • 앤스로픽 미토스의 10조 파라미터라는 수치 자체도 업계 관찰자 입장에선 흥미로운 정보

기술 맥락

GPT-5.5의 진짜 포인트는 '토큰당 지연 시간은 그대로, 지능은 더 높게'라는 효율성 측면이에요. 예전엔 모델 하나 더 똑똑하게 만들려면 파라미터를 키우고 연산량을 더 쏟아부어야 했는데, 이제는 같은 연산 예산 안에서 더 나은 결과를 뽑아내는 방향으로 경쟁축이 이동하고 있거든요. 기업 입장에선 이게 돈 문제거든요. API 쓸 때마다 토큰당 비용이 나가는데, 같은 답을 더 적은 토큰으로 뽑아내면 곧바로 운영비 절감으로 이어져요.

Terminal-Bench 2.0은 AI 에이전트가 실제 셸 환경에서 명령어를 실행하며 멀티스텝 작업을 수행하는 능력을 측정하는 벤치마크예요. 단순히 "이 코드 짜줘"가 아니라 "파일을 찾고, 의존성을 설치하고, 테스트를 돌려서 실패하면 고쳐라" 같은 실무형 시나리오를 다루거든요. 여기서 82.7%가 나왔다는 건 실제 개발 워크플로우에 꽂아 쓸 만한 수준에 가까워졌다는 뜻이에요.

GDPval은 오픈AI가 만든 '실제 직업군 업무 수행 능력' 평가 체계로, 1320개의 전문직 태스크를 돌려서 인간 수준을 얼마나 대체 가능한지 보는 지표예요. 84.9%라는 숫자가 인상적이긴 한데, 벤치 설계자가 모델 만든 회사랑 같다는 건 감안해서 볼 필요가 있어요.

오픈AI가 '성능 1위'보다 '같은 값에 더 많이'를 선택한 듯한 출시. 미토스가 프론티어를 가져간 사이 오픈AI는 엔터프라이즈 경제성에 집중하는 전략이 보인다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

몬드리안에이아이, LG AI 아카데미에 프라이빗 AI 클라우드 '런유어 클라우드' 공급

몬드리안에이아이가 LG AI연구원의 교육 프로그램 LG AI 아카데미에 자체 AI 클라우드 솔루션 '런유어 클라우드'를 공급했다. 엔터프라이즈 포털 + 실시간 자원 모니터링 대시보드 + 하이브리드 기술 지원 체계가 수주 결정 요인이었다.

ai-ml

AMD ROCm 7.0, CUDA 락인 정면 돌파 — 추론 3.5배·오픈소스 100%·개발자 10만 명 돌파

AMD가 ROCm 7.0과 개발자 생태계 공세로 엔비디아 CUDA 아성에 도전한다. 전작 대비 추론 3.5배, 훈련 3배 성능 향상을 주장하며 파이토치·vLLM 등 주요 프레임워크에서 코드 수정 없이 구동 가능하다는 호환성을 강조했다. 개발자 클라우드는 10개월 만에 주간 활성 사용자 3.2만 명을 확보했다.

ai-ml

딥시크 V4 공개 — 1.6T 오픈소스 역대 최대, 가격은 클로드 오퍼스의 1/10

딥시크가 1.6조 파라미터 규모의 오픈소스 플래그십 모델 DeepSeek-V4를 허깅페이스에 프리뷰 공개했다. MoE 구조로 활성 파라미터는 490억. 컨텍스트 창은 100만 토큰으로 V3.2 대비 8배 확장됐고, API 가격은 클로드 오퍼스의 10~20% 수준을 유지한다. 다만 프론티어 모델에는 대부분 벤치에서 밀린다.

ai-ml

SKT, AI 3강 풀스택 선언 — 에이닷엑스 K1 5190억 파라미터·DC 병목 해소 전략

2026 월드IT쇼 AI·ICT 포럼에서 SK텔레콤이 AI 3강 도약을 풀스택 전략으로 뒷받침하겠다고 선언했다. 5190억 파라미터 규모의 A.X K1 모델이 스탠포드 AI 인덱스 2026에 이름을 올렸고, 데이터센터 병목 해소를 위해 수도권·경남·서부권까지 DC 사업을 확장하겠다고 밝혔다.

ai-ml

메타, 청소년 AI 대화 요약 보여주는 '인사이트' 탭 공개 — 원문은 안 보여주고 카테고리만

메타가 청소년 계정의 Meta AI 대화를 학부모가 카테고리별로 볼 수 있는 '인사이트' 탭을 출시했다. 대화 원문은 노출하지 않고 학교·건강·웰빙 등 주제만 요약해 프라이버시와 감독권 사이 균형을 시도했다. 자살·자해 등 고위험 주제에서는 능동적 알림 기능도 도입 예정이다.