---
title: "구글, 8세대 TPU 공개 — 학습용 '8t'와 추론용 '8i'로 쪼갰다"
published: 2026-04-22T12:15:29.000Z
canonical: https://jeff.news/article/1882
---
# 구글, 8세대 TPU 공개 — 학습용 '8t'와 추론용 '8i'로 쪼갰다

구글이 Cloud Next에서 8세대 TPU 두 종을 공개했다. 훈련 특화 TPU 8t는 슈퍼팟당 9,600칩·121 ExaFlops, 추론 특화 TPU 8i는 KV 캐시 풋프린트 기준으로 SRAM을 사이징했다. 두 칩 모두 Axion ARM 호스트와 4세대 액체냉각을 쓰며 와트당 성능이 전세대 대비 2배다.

- Google이 Cloud Next에서 **8세대 TPU 두 종**을 공개함 — 훈련용 `TPU 8t`와 추론용 `TPU 8i`
  - 한 칩이 다 하던 시대는 끝. "에이전트 시대에는 트레이닝과 서빙이 서로 다른 제약을 가진다"는 전제로 아예 갈라버림
  - Gemini와 DeepMind가 코디자인 파트너. 두 칩 모두 올해 말 GA 예정

## TPU 8t — 트레이닝 괴물

- 단일 슈퍼팟이 **9,600칩 + 2PB 공유 HBM**, **121 ExaFlops** 연산
  - 이전 세대 대비 팟당 연산 성능 약 3배
  - Virgo Network + JAX + Pathways 조합으로 **최대 100만 칩까지 단일 논리 클러스터로 거의 선형 확장**
- 목표는 "프런티어 모델 개발 사이클을 수개월 → 수주"로 줄이는 것
  - 스토리지 접근 10배 빨라짐 + TPUDirect로 데이터를 TPU에 직접 풀링
  - RAS(신뢰성/가용성/서비스성)로 **goodput 97%+** 겨냥 — 장애 ICI 링크 자동 우회, OCS(Optical Circuit Switching)가 사람 개입 없이 하드웨어 재구성

> [!IMPORTANT]
> 프런티어 훈련 규모에서는 goodput 1%p가 며칠의 실제 학습 시간 차이로 환산된다. 121 EF보다 이 수치가 더 무서운 지표.

## TPU 8i — 추론/에이전트 전용

- 메모리 대역폭에 올인한 칩. **지연 민감 추론 워크로드**가 타깃
  - SRAM 용량을 "프로덕션 규모 추론 모델의 **KV 캐시** 풋프린트에 맞춰" 사이징함
  - 에이전트끼리 상호작용이 많아질수록 작은 비효율이 누적되니, 추론 지연을 줄이는 게 에이전트 스케일링의 관건이라는 논리

## 공통 스펙과 소프트웨어

- 두 칩 모두 처음으로 Google 자체 **Axion ARM 기반 CPU**가 호스트 — 칩만이 아니라 시스템 전체를 풀스택으로 최적화
- 프레임워크 지원은 JAX, MaxText, PyTorch, **SGLang, vLLM** 네이티브 — 기존 오픈 생태계 그대로
  - 가상화 오버헤드 없이 **베어메탈 액세스** 제공
  - MaxText 레퍼런스 구현, 강화학습용 Tunix 등 오픈소스 기여도 포함

## 전력 효율

- 이전 세대 Ironwood 대비 **와트당 성능 2배**
  - 네트워크 연결을 같은 칩에 통합해 팟 내 데이터 이동 전력 비용을 낮춤
  - 4세대 액체 냉각으로 공랭 불가능한 성능 밀도 유지
- Google 주장 — 지난 5년간 데이터센터 전력당 연산 성능이 **6배** 올랐음. 8세대 TPU가 이 궤적을 잇는다는 포지셔닝

## 누가 이미 쓰고 있나

- Citadel Securities가 대표 사례로 언급됨 — 자신들의 최첨단 AI 워크로드를 TPU로 돌림
- 판매 채널은 Google의 **AI Hypercomputer** 번들 — 하드웨어+소프트웨어+오케스트레이션 통합 스택으로 제공

---

## 기술 맥락

- 왜 트레이닝과 추론을 굳이 다른 칩으로 갈랐나 — 두 워크로드의 병목이 정반대거든요. 트레이닝은 연산 쓰루풋과 칩 간 대역폭이 핵심이고, 추론은 KV 캐시를 얼마나 빠르게 읽고 쓰느냐 즉 메모리 대역폭이 병목이에요. 한 칩으로 둘 다 커버하면 한쪽은 반드시 손해를 봐요. NVIDIA도 H100/H200에서 비슷한 분화를 시도했지만 Google은 아예 별도 다이로 찢어버린 거예요
- KV 캐시 얘기가 왜 중요한지 — 트랜스포머 추론할 때 이전 토큰의 key/value 텐서를 계속 재사용해요. 긴 컨텍스트를 다루는 reasoning 모델이나 에이전트는 이 캐시가 수십 GB까지 부풀어요. SRAM을 "KV 캐시 풋프린트 기준"으로 사이징했다는 건, 추론 중 DRAM 왕복을 최소화하도록 칩 내부 메모리를 크게 설계했다는 뜻이에요
- OCS(Optical Circuit Switching)가 주는 실익 — 기존 이더넷/InfiniBand는 전기 신호 기반 패킷 스위칭인데, OCS는 광 경로를 물리적으로 재배선하는 구조예요. 지연과 전력이 훨씬 낮고 장애 노드를 우회하려고 토폴로지를 동적으로 바꿀 수 있어요. 수천 칩 규모에서 노드 하나 죽었다고 잡 전체 재시작하면 끝장이니까 이게 goodput에 직결돼요
- Axion ARM 호스트 탑재가 조용히 큰 변화예요 — 지금까지 TPU는 Intel/AMD x86 호스트에 붙어 있었는데, 이제 호스트 CPU까지 Google 자체 설계로 수직 통합됐어요. 호스트-가속기 인터커넥트, 메모리 일관성, 전력 관리 같은 걸 한 회사가 다 튜닝할 수 있으니 시스템 레벨 효율이 올라가는 거예요
- AI Hypercomputer 번들링 전략의 의미 — 칩만 파는 게 아니라 JAX/Pathways/MaxText 같은 소프트웨어 스택, 오케스트레이션까지 묶어 팔아요. NVIDIA CUDA 생태계에 맞서려면 "우리 스택 전부 쓰면 이만큼 유리하다"를 입증해야 하니까요. SGLang/vLLM 네이티브 지원은 이 장벽을 낮추려는 포석이에요

## 핵심 포인트

- 훈련용 TPU 8t: 슈퍼팟당 9,600칩, 2PB 공유 HBM, 121 ExaFlops, 100만 칩까지 거의 선형 확장
- 추론용 TPU 8i: 메모리 대역폭 강화, 추론 모델 KV 캐시에 맞춘 SRAM
- goodput 97%+ 목표 — 장애 ICI 링크 자동 우회, OCS로 무중단 토폴로지 재구성
- Axion ARM 기반 자체 CPU를 호스트로 탑재해 풀스택 최적화
- JAX/MaxText/PyTorch/SGLang/vLLM 네이티브, 베어메탈 액세스 제공
- Ironwood 대비 와트당 성능 2배, AI Hypercomputer 번들로 판매

## 인사이트

트레이닝과 추론을 별도 칩으로 찢은 건 에이전트 시대의 워크로드 분화를 반영한 베팅. KV 캐시 기준 SRAM 사이징, Axion 호스트 수직 통합, OCS 기반 goodput 관리가 NVIDIA와의 장기전에서 Google이 내세우는 차별점이다.