본문으로 건너뛰기
피드

OpenAI, Nvidia 대신 Cerebras 칩으로 초고속 코딩 모델 GPT-5.3-Codex-Spark 출시

ai-ml 약 4분
vote
0
댓글
북마크

OpenAI가 Cerebras Wafer Scale Engine 3 위에서 구동되는 GPT-5.3-Codex-Spark를 출시, 초당 1,000+ 토큰으로 전작 대비 15배 빠른 코딩 특화 모델이며 Nvidia 의존도 탈피 전략의 첫 결실임

  • 1

    GPT-5.3-Codex-Spark: 비Nvidia 하드웨어(Cerebras) 최초 프로덕션 모델, 1,000+ tok/s

  • 2

    속도 특화 코딩 모델로 SWE-Bench Pro에서 GPT-5.1-Codex-mini 능가 (독립 검증 없음)

  • 3

    OpenAI의 Nvidia 탈피: AMD 딜, Amazon $38B 계약, TSMC 자체 칩, Nvidia $100B→$20B 축소

  • 4

    코딩 에이전트 경쟁 과열로 GPT-5.2→5.3-Codex→Spark까지 수주 간격으로 빠른 이터레이션

  • OpenAI가 비Nvidia 하드웨어에서 돌아가는 최초의 프로덕션 모델 GPT-5.3-Codex-Spark를 출시함. Cerebras의 Wafer Scale Engine 3(저녁 접시 크기 칩) 위에서 구동됨
  • 초당 1,000+ 토큰 생성으로 전작 대비 약 15배 빠름. 참고로 Anthropic Claude Opus 4.6 fast 모드는 ~170 tok/s(일반 모드 68.2 tok/s의 2.5배)이지만 더 크고 범용적인 모델임
  • ChatGPT Pro($200/월) 구독자 대상으로 Codex 앱, CLI, VS Code 확장을 통해 제공. 128K 토큰 컨텍스트 윈도우, 텍스트 전용

속도 vs 정확도 트레이드오프

  • Spark는 속도에 최적화된 코딩 특화 모델로, 풀 GPT-5.3의 범용 능력과는 다른 포지셔닝
  • SWE-Bench Pro와 Terminal-Bench 2.0에서 이전 GPT-5.1-Codex-mini를 능가한다고 주장하나 독립 검증은 없음
  • 이전 Codex는 속도가 약점이었음 — Ars Technica 테스트에서 지뢰찾기 만들 때 Claude Code 대비 2배 오래 걸렸음

Cerebras 칩의 맥락

  • Nvidia 기반 OpenAI 최고 속도: GPT-4o ~147 tok/s, o3-mini ~167 tok/s
  • Cerebras는 Llama 3.1 70B에서 2,100 tok/s, gpt-oss-120B에서 3,000 tok/s를 기록한 바 있음
  • Codex-Spark가 1,000 tok/s에 "그친" 것은 모델 크기와 복잡도 때문으로 추정됨

Nvidia 탈피 전략

  • OpenAI는 지난 1년간 체계적으로 Nvidia 의존도를 낮춰옴: AMD 딜(2025.10), Amazon $38B 클라우드 계약(2025.11), TSMC 통한 자체 칩 설계
  • 당초 Nvidia와의 $100B 인프라 딜이 무산되고 $20B로 축소됨 — Reuters에 따르면 OpenAI가 Nvidia 칩의 추론 속도에 불만을 가졌다고 함
  • 코딩 에이전트 경쟁 과열: Sam Altman이 Google/Anthropic 경쟁 압박에 대한 "code red" 메모를 발행한 후 GPT-5.2(12월) → GPT-5.3-Codex(며칠 전) → Spark(지금)까지 빠르게 이터레이션 중

OpenAI가 추론 속도를 위해 Nvidia를 우회한 것은 단순 하드웨어 다변화가 아니라, 코딩 에이전트 경쟁에서 레이턴시가 핵심 차별점이 되었다는 시장 인식의 반영임

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.