본문으로 건너뛰기
0
r/jeffnews HN 약 6분

Nvidia GB10 GPU 심층 분석: RTX 5070급 iGPU의 실체와 한계

ai-ml

요약

GB10의 iGPU는 48 SM/2.55GHz로 RTX 5070급이지만 소비자용 Blackwell 변종. AMD Strix Halo 대비 컴퓨트 벤치에서 우위지만, ARM CPU로 인한 게이밍 호환성 문제와 LPDDR5X 대역폭 한계가 존재.

기사 전체 정리

GB10 iGPU의 정체: RTX 5070급이 통합된 칩

  • Nvidia GB10의 내장 GPU는 48개 SM(Streaming Multiprocessor)이 최대 2.55GHz로 돌아감. 사실상 RTX 5070을 내장한 것이나 마찬가지임. RTX 5070은 전력/캐시/메모리 대역폭에서 여전히 우위지만, iGPU치고는 어마어마한 스펙

  • AMD Strix Halo와 자주 비교되는데, 결정적 차이는 CUDA 생태계. GPU 컴퓨팅 앱은 CUDA와 Nvidia GPU에 최적화가 먼저고, 나머지는 뒷전이거나 아예 고려 안 되는 현실임

캐시와 메모리: 전략이 다르다

  • GB10은 Blackwell GPU 그대로의 2단계 캐시 구조(L1 + 24MB L2). AMD는 더 많은 캐시 레벨을 써서 점진적으로 용량을 키우는 방식

  • GB10의 L1 캐시는 낮은 레이턴시 + 높은 용량 조합이 인상적. AMD의 스칼라/벡터 캐시를 합친 것보다 용량이 크면서도 레이턴시는 비슷하거나 더 낮음

  • 메모리 서브시스템 전략 차이가 흥미로운데: Strix Halo는 GPU 전용 "Infinity Cache"를 시스템 인터커넥트 반대편에 놓아서 Infinity Fabric에 1TB/s 가까운 부하를 줌. GB10은 24MB L2가 GPU 메모리 트래픽 대부분을 필터링해서 시스템 인터커넥트는 주로 DRAM 접근만 처리

  • 둘 다 LPDDR5X 사용. GB10은 8533 MT/s, Strix Halo는 8000 MT/s로 256비트 버스에서 각각 273 GB/s, 256 GB/s 이론 대역폭

대역폭과 컴퓨팅 성능

  • 48개 SM = 48개 L1 캐시 인스턴스라서 캐시 히트 대역폭이 압도적. Vulkan 벤치마크에서 Strix Halo를 쉽게 넘어섬. L2 레벨에서도 더 높은 대역폭 + 더 큰 용량으로 계속 리드

  • 컴퓨트 성능에서도 GB10이 한 수 위. Strix Halo의 20 WGP vs GB10의 48 SM인데, RDNA3.5 WGP가 기본 연산 실행 유닛 2배 + 높은 클럭이지만 그래도 GB10에 좀 못 미침

중요

> FP64(배정밀도) 성능은 둘 다 낮음. GB10은 FP64:FP32 비율이 1:64, Strix Halo는 1:32. 데이터센터 GPU와는 확실히 다른 포지션

소비자용 Blackwell이지 데이터센터용이 아님

  • 이 기사의 핵심 지적: GB10은 **소비자용 Blackwell(compute capability 12.1)**이지, B200 같은 데이터센터용(compute capability 10.0)이 아님. Nvidia가 "같은 아키텍처"라고 마케팅하지만 실제로는 최적화 타겟이 완전 다름

  • 데이터센터 변종은 더 많은 작업 in-flight 유지, 더 큰 L1/공유 메모리(256KB vs 128KB), 더 많은 FP64 유닛, 5세대 텐서코어 기능 등을 가짐

  • 포럼과 GitHub에서 데이터센터용 커널이 GB10에서 안 돌아가는 혼란이 실제로 발생하고 있음. "Strix Halo의 RDNA3.5가 MI300X와 같은 아키텍처라고 말하는 것과 같다"는 비유가 정확함

벤치마크 결과

  • FluidX3D (격자 볼츠만 유체 시뮬레이션): FP32와 FP16S에서 GB10이 Strix Halo 리드. 하지만 FP16C(커스텀 포맷)에서는 역전. Intel Arc B580이 GDDR6의 456GB/s 대역폭으로 양쪽 iGPU를 모두 크게 앞섬

  • VkFFT (FFT 벤치마크): GB10이 가장 일관된 성능으로 리드. Strix Halo는 어떤 테스트에서도 GB10을 못 이김. B580은 평균은 높지만 특정 구성에서 큰 손실

  • FAHBench (단백질 접힘 시뮬레이션): 단정밀도에서 GB10이 쉽게 1위. 로컬 메모리를 잘 활용하는 워크로드라 컴퓨트 처리량 우위가 잘 드러남. 다만 Strix Halo는 90°C 넘으면서 성능 떨어지는 게 보임 — 씬앤라이트 디바이스 타겟이라 열 제약이 큼

게이밍? 아직은 험난함

  • GB10의 치명적 약점은 ARM CPU. PC 게임 대부분이 x86-64 타겟 + 클로즈드 소스라 ARM 포트가 없음. 에뮬레이션으로 Cyberpunk 2077 돌리면 1080P 미디엄에서 약 50 FPS인데, Strix Halo는 같은 설정에서 90 FPS 가까이 나옴

  • Nvidia는 GB10을 컴퓨트 솔루션으로 포지셔닝하고 있고, 개발자가 데이터센터 안 가고 로컬에서 코드 테스트하는 용도로 밀고 있음. 개발자는 ARM 네이티브로 리컴파일 가능하니까 호환성 문제가 덜함

ℹ️참고

> 결론적으로 GB10은 흥미로운 제품이지만 타겟 오디언스가 좁음. Strix Halo처럼 통합 메모리와 소형 폼팩터의 장점이 있지만, iGPU 타협점과 디스크리트 GPU 대비 높은 가격이 걸림돌. 양쪽 모두 가격이 내려가고 타협이 줄어야 진짜 대중화될 듯

핵심 포인트

  • 48 SM, 최대 2.55GHz — 사실상 RTX 5070 내장
  • 소비자용 Blackwell(CC 12.1), 데이터센터용(CC 10.0)과 다른 아키텍처
  • 24MB L2로 GPU 트래픽 필터링하는 전략 (Strix Halo의 Infinity Cache와 대조)
  • FluidX3D/VkFFT/FAHBench에서 대체로 Strix Halo 리드
  • ARM CPU로 게이밍 성능 큰 타격 (Cyberpunk 50 FPS vs Strix Halo 90 FPS)

인사이트

Nvidia가 '같은 Blackwell'로 마케팅하지만, 실제로는 소비자/데이터센터 변종 차이가 커서 혼란을 유발하고 있다는 지적이 핵심.

댓글

댓글

댓글을 불러오는 중...

ai-ml

ARC-AGI-3 등장: AI가 진짜 AGI인지 측정하는 새 벤치마크 나왔다

ARC Prize 팀이 ARC-AGI-3를 공개했는데, 기존 정적 퍼즐 풀기가 아니라 AI가 새로운 환경을 탐색하고 즉석에서 목표를 파악하는 '적응형 추론' 능력을 측정함. 인간 수준으로 게임을 클리어하면 100점인데, 아직 AI와 인간 사이에 격차가 있는 한 AGI가 아니라는 기준을 제시하는 거임.

ai-ml

구글 TurboQuant: AI 모델 압축의 판도를 바꾸는 기술 등장 (ICLR 2026)

구글 리서치가 AI 모델의 핵심 병목인 키-값 캐시(KV Cache) 문제를 해결하는 압축 알고리즘 TurboQuant를 공개했음. 학습 없이 KV 캐시를 3비트까지 줄이면서도 모델 정확도 손실 제로, H100 GPU에서 최대 8배 속도 향상이라는 미친 성능을 보여줌. PolarQuant, QJL과 함께 ICLR 2026에서 발표 예정.

ai-ml

Claude Code한테 내 옛날 연구 코드 맡겨봤는데 하루만에 54% 성능 향상시킴 ㄷㄷ

Karpathy의 Autoresearch 방법론에서 영감 받아서, 저자가 자기 옛날 연구 코드(eCLIP)를 Claude Code한테 던져주고 빨래/장보기 하러 갔음. 돌아왔더니 42번 실험 돌리고 Mean Rank를 344→157로 54% 줄여놨다는 레전드 썰. 근데 버그 하나 고친 게 모든 아키텍처 개선 합친 것보다 효과가 컸다는 게 포인트 ㅋㅋ

ai-ml

Claude Code 치트시트 레전드 정리본 떴다 - 이거 하나면 끝

Claude Code의 모든 슬래시 커맨드, 단축키, 고급 기능을 한 페이지에 때려박은 치트시트임. /btw 같은 숨겨진 꿀기능부터 Git Worktree, Voice Mode까지 ㄹㅇ 알차게 담겨있어서 북마크 필수각.

ai-ml

딥러닝용 미친 사양 컴퓨터 'Tinybox' - 최대 1 엑사플롭 지원에 가격은 100억?

tinygrad 팀이 만든 딥러닝 전용 컴퓨터 'Tinybox'가 이제 실제로 판매 중임. red($12,000)부터 green($65,000), 그리고 2027년 출시 예정인 초고사양 'exabox'(~$10M)까지 라인업 구성. 근데 exabox 스펙이 진짜 레전드 수준ㅋㅋ