Nvidia GB10 GPU 심층 분석: RTX 5070급 iGPU의 실체와 한계
요약
기사 전체 정리
GB10 iGPU의 정체: RTX 5070급이 통합된 칩
Nvidia GB10의 내장 GPU는 48개 SM(Streaming Multiprocessor)이 최대 2.55GHz로 돌아감. 사실상 RTX 5070을 내장한 것이나 마찬가지임. RTX 5070은 전력/캐시/메모리 대역폭에서 여전히 우위지만, iGPU치고는 어마어마한 스펙
AMD Strix Halo와 자주 비교되는데, 결정적 차이는 CUDA 생태계. GPU 컴퓨팅 앱은 CUDA와 Nvidia GPU에 최적화가 먼저고, 나머지는 뒷전이거나 아예 고려 안 되는 현실임
캐시와 메모리: 전략이 다르다
GB10은 Blackwell GPU 그대로의 2단계 캐시 구조(L1 + 24MB L2). AMD는 더 많은 캐시 레벨을 써서 점진적으로 용량을 키우는 방식
GB10의 L1 캐시는 낮은 레이턴시 + 높은 용량 조합이 인상적. AMD의 스칼라/벡터 캐시를 합친 것보다 용량이 크면서도 레이턴시는 비슷하거나 더 낮음
메모리 서브시스템 전략 차이가 흥미로운데: Strix Halo는 GPU 전용 "Infinity Cache"를 시스템 인터커넥트 반대편에 놓아서 Infinity Fabric에 1TB/s 가까운 부하를 줌. GB10은 24MB L2가 GPU 메모리 트래픽 대부분을 필터링해서 시스템 인터커넥트는 주로 DRAM 접근만 처리
둘 다 LPDDR5X 사용. GB10은 8533 MT/s, Strix Halo는 8000 MT/s로 256비트 버스에서 각각 273 GB/s, 256 GB/s 이론 대역폭
대역폭과 컴퓨팅 성능
48개 SM = 48개 L1 캐시 인스턴스라서 캐시 히트 대역폭이 압도적. Vulkan 벤치마크에서 Strix Halo를 쉽게 넘어섬. L2 레벨에서도 더 높은 대역폭 + 더 큰 용량으로 계속 리드
컴퓨트 성능에서도 GB10이 한 수 위. Strix Halo의 20 WGP vs GB10의 48 SM인데, RDNA3.5 WGP가 기본 연산 실행 유닛 2배 + 높은 클럭이지만 그래도 GB10에 좀 못 미침
중요
> FP64(배정밀도) 성능은 둘 다 낮음. GB10은 FP64:FP32 비율이 1:64, Strix Halo는 1:32. 데이터센터 GPU와는 확실히 다른 포지션
소비자용 Blackwell이지 데이터센터용이 아님
이 기사의 핵심 지적: GB10은 **소비자용 Blackwell(compute capability 12.1)**이지, B200 같은 데이터센터용(compute capability 10.0)이 아님. Nvidia가 "같은 아키텍처"라고 마케팅하지만 실제로는 최적화 타겟이 완전 다름
데이터센터 변종은 더 많은 작업 in-flight 유지, 더 큰 L1/공유 메모리(256KB vs 128KB), 더 많은 FP64 유닛, 5세대 텐서코어 기능 등을 가짐
포럼과 GitHub에서 데이터센터용 커널이 GB10에서 안 돌아가는 혼란이 실제로 발생하고 있음. "Strix Halo의 RDNA3.5가 MI300X와 같은 아키텍처라고 말하는 것과 같다"는 비유가 정확함
벤치마크 결과
FluidX3D (격자 볼츠만 유체 시뮬레이션): FP32와 FP16S에서 GB10이 Strix Halo 리드. 하지만 FP16C(커스텀 포맷)에서는 역전. Intel Arc B580이 GDDR6의 456GB/s 대역폭으로 양쪽 iGPU를 모두 크게 앞섬
VkFFT (FFT 벤치마크): GB10이 가장 일관된 성능으로 리드. Strix Halo는 어떤 테스트에서도 GB10을 못 이김. B580은 평균은 높지만 특정 구성에서 큰 손실
FAHBench (단백질 접힘 시뮬레이션): 단정밀도에서 GB10이 쉽게 1위. 로컬 메모리를 잘 활용하는 워크로드라 컴퓨트 처리량 우위가 잘 드러남. 다만 Strix Halo는 90°C 넘으면서 성능 떨어지는 게 보임 — 씬앤라이트 디바이스 타겟이라 열 제약이 큼
게이밍? 아직은 험난함
GB10의 치명적 약점은 ARM CPU. PC 게임 대부분이 x86-64 타겟 + 클로즈드 소스라 ARM 포트가 없음. 에뮬레이션으로 Cyberpunk 2077 돌리면 1080P 미디엄에서 약 50 FPS인데, Strix Halo는 같은 설정에서 90 FPS 가까이 나옴
Nvidia는 GB10을 컴퓨트 솔루션으로 포지셔닝하고 있고, 개발자가 데이터센터 안 가고 로컬에서 코드 테스트하는 용도로 밀고 있음. 개발자는 ARM 네이티브로 리컴파일 가능하니까 호환성 문제가 덜함
참고
> 결론적으로 GB10은 흥미로운 제품이지만 타겟 오디언스가 좁음. Strix Halo처럼 통합 메모리와 소형 폼팩터의 장점이 있지만, iGPU 타협점과 디스크리트 GPU 대비 높은 가격이 걸림돌. 양쪽 모두 가격이 내려가고 타협이 줄어야 진짜 대중화될 듯
댓글
댓글
댓글을 불러오는 중...