---
title: "오픈AI, 브로드컴과 만든 첫 자체 추론 칩 ‘할라페뇨’ 공개"
published: 2026-06-24T17:47:00.000Z
canonical: https://jeff.news/article/4348
---
# 오픈AI, 브로드컴과 만든 첫 자체 추론 칩 ‘할라페뇨’ 공개

오픈AI가 브로드컴과 함께 만든 첫 자체 추론 프로세서 ‘할라페뇨’를 공개했다. 아직 테스트 단계지만, 실시간 코딩 모델 같은 추론 워크로드에서 기존 최고 수준 대안보다 전력 대비 성능이 크게 좋다는 초기 결과를 내세웠다.

- 오픈AI가 첫 자체 추론 프로세서 ‘할라페뇨’를 공개함. 브로드컴과 같이 설계하고 제조한 칩임.
  - 아직 테스트 중이지만, 오픈AI는 초기 결과에서 현재 최고 수준 대안보다 전력 대비 성능(performance-per-watt)이 크게 좋다고 주장함.
  - 흥미로운 건 칩 개발 과정에도 오픈AI의 자체 AI 모델이 도움을 줬다고 밝힌 점임.

- 이 칩은 학습(pre-training)용이 아니라 추론(inference)용임. 여기 포인트가 중요함.
  - 추론은 이미 학습된 모델을 사용자 요청에 맞춰 실행하는 단계임.
  - 챗봇, 코딩 에이전트, 실시간 도구 호출처럼 사용자가 뭔가 입력할 때마다 계속 돈이 나가는 영역임.
  - 오픈AI는 특히 실시간 코딩 모델을 돌릴 때 낮은 운영 비용을 강조함.

> [!IMPORTANT]
> 할라페뇨의 핵심은 “엔비디아 GPU를 완전히 대체하겠다”가 아니라, 반복적으로 발생하는 추론 비용을 자체 칩으로 깎겠다는 쪽에 더 가까움.

- 오픈AI가 자체 칩을 만드는 배경은 뻔하지만 큼. 엔비디아 GPU 의존도를 줄이고 싶은 거임.
  - 구글과 아마존도 이미 비슷한 이유로 자체 AI 가속기를 만들어 왔음.
  - 오픈AI도 모델 규모와 사용자 트래픽이 커질수록 GPU 공급, 가격, 전력 비용이 전부 사업 리스크가 됨.
  - 작은 추론 비용 절감도 호출량이 거대하면 바로 손익에 꽂힘.

- 그렉 브록먼은 오픈AI가 ‘워크로드를 깊게 이해하고 있다’는 점을 칩 설계의 근거로 설명함.
  - 범용 칩을 사서 쓰는 게 아니라, 오픈AI 모델이 실제로 어떤 계산을 많이 하는지 보고 거기에 맞춰 가속하겠다는 접근임.
  - “충분히 지원받지 못하는 특정 워크로드를 찾아서, 무엇을 더 빠르게 만들 수 있는지 본다”는 식의 설명을 내놨음.

- 다만 고성능 사전학습은 당분간 계속 엔비디아 하드웨어에 의존할 가능성이 큼.
  - 기사에서도 더 무거운 작업, 특히 pre-training은 여전히 엔비디아 쪽이 맡을 가능성이 높다고 봄.
  - 할라페뇨는 거대한 모델을 처음부터 훈련시키는 칩이라기보다, 이미 만든 모델을 싸고 빠르게 서비스하는 칩에 가깝다.

- 오픈AI가 말하는 그림은 꽤 노골적인 풀스택 전략임.
  - 회사는 프론티어 모델만 만드는 게 아니라, 그 위의 제품과 아래의 인프라까지 직접 설계한다고 설명함.
  - 언급된 레이어만 해도 칩 아키텍처, 커널, 메모리 시스템, 네트워킹, 스케줄링, 배포 시스템, 제품 경험까지 이어짐.
  - Codex 같은 에이전트형 제품까지 직접 만들고 있으니, 모델 호출 패턴을 제품 설계와 하드웨어 설계 양쪽에서 동시에 조정할 수 있음.

---

## 기술 맥락

- 오픈AI가 고른 타깃은 학습이 아니라 추론이에요. 학습은 거대한 GPU 클러스터가 필요한 영역이고, 추론은 사용자가 서비스를 쓸 때마다 계속 발생하는 반복 비용이거든요.

- 자체 칩이 의미 있는 이유는 워크로드가 꽤 예측 가능하기 때문이에요. 오픈AI는 자기 모델이 어떤 연산을 많이 쓰는지, Codex 같은 제품이 어떤 지연 시간과 비용 구조를 요구하는지 직접 알고 있어요.

- 브로드컴과 협업한 것도 현실적인 선택이에요. 칩을 직접 설계한다는 말이 곧바로 제조 생태계까지 혼자 다 한다는 뜻은 아니거든요. 필요한 건 오픈AI 쪽 워크로드 지식과 브로드컴 쪽 실리콘 경험을 붙이는 거예요.

- 개발자 입장에서 볼 포인트는 모델 API 가격과 응답 속도예요. 추론 전력 효율이 좋아지면 같은 데이터센터에서 더 많은 요청을 처리할 수 있고, 장기적으로는 코딩 에이전트 같은 제품의 가격 정책에도 영향을 줄 수 있어요.

## 핵심 포인트

- 할라페뇨는 학습용이 아니라 이미 학습된 모델을 실행하는 추론(inference)에 특화된 칩임
- 오픈AI는 엔비디아 GPU 의존도를 낮추고 추론 비용을 줄이기 위해 자체 AI 가속기 영역으로 들어가고 있음
- 칩 개발에도 오픈AI의 자체 AI 모델이 활용됐다고 밝힘
- 오픈AI는 모델, 제품, 데이터센터, 칩 아키텍처, 커널, 메모리, 네트워킹, 스케줄링까지 스택 전체를 최적화하겠다는 방향을 드러냄

## 인사이트

AI 비용 전쟁의 핵심이 점점 모델 성능만이 아니라 ‘한 번 호출할 때 얼마가 드느냐’로 이동하고 있다. 특히 코딩 에이전트처럼 실시간 추론을 계속 때리는 제품은 자체 칩이 제품 마진과 응답 품질을 동시에 좌우할 수 있다.