본문으로 건너뛰기
피드

Nvidia GB10 GPU 심층 분석: RTX 5070급 iGPU의 실체와 한계

ai-ml 약 6분
vote
0
댓글
북마크

GB10의 iGPU는 48 SM/2.55GHz로 RTX 5070급이지만 소비자용 Blackwell 변종. AMD Strix Halo 대비 컴퓨트 벤치에서 우위지만, ARM CPU로 인한 게이밍 호환성 문제와 LPDDR5X 대역폭 한계가 존재.

  • 1

    48 SM, 최대 2.55GHz — 사실상 RTX 5070 내장

  • 2

    소비자용 Blackwell(CC 12.1), 데이터센터용(CC 10.0)과 다른 아키텍처

  • 3

    24MB L2로 GPU 트래픽 필터링하는 전략 (Strix Halo의 Infinity Cache와 대조)

  • 4

    FluidX3D/VkFFT/FAHBench에서 대체로 Strix Halo 리드

  • 5

    ARM CPU로 게이밍 성능 큰 타격 (Cyberpunk 50 FPS vs Strix Halo 90 FPS)

GB10 iGPU의 정체: RTX 5070급이 통합된 칩

  • Nvidia GB10의 내장 GPU는 48개 SM(Streaming Multiprocessor)이 최대 2.55GHz로 돌아감. 사실상 RTX 5070을 내장한 것이나 마찬가지임. RTX 5070은 전력/캐시/메모리 대역폭에서 여전히 우위지만, iGPU치고는 어마어마한 스펙

  • AMD Strix Halo와 자주 비교되는데, 결정적 차이는 CUDA 생태계. GPU 컴퓨팅 앱은 CUDA와 Nvidia GPU에 최적화가 먼저고, 나머지는 뒷전이거나 아예 고려 안 되는 현실임

캐시와 메모리: 전략이 다르다

  • GB10은 Blackwell GPU 그대로의 2단계 캐시 구조(L1 + 24MB L2). AMD는 더 많은 캐시 레벨을 써서 점진적으로 용량을 키우는 방식

  • GB10의 L1 캐시는 낮은 레이턴시 + 높은 용량 조합이 인상적. AMD의 스칼라/벡터 캐시를 합친 것보다 용량이 크면서도 레이턴시는 비슷하거나 더 낮음

  • 메모리 서브시스템 전략 차이가 흥미로운데: Strix Halo는 GPU 전용 "Infinity Cache"를 시스템 인터커넥트 반대편에 놓아서 Infinity Fabric에 1TB/s 가까운 부하를 줌. GB10은 24MB L2가 GPU 메모리 트래픽 대부분을 필터링해서 시스템 인터커넥트는 주로 DRAM 접근만 처리

  • 둘 다 LPDDR5X 사용. GB10은 8533 MT/s, Strix Halo는 8000 MT/s로 256비트 버스에서 각각 273 GB/s, 256 GB/s 이론 대역폭

대역폭과 컴퓨팅 성능

  • 48개 SM = 48개 L1 캐시 인스턴스라서 캐시 히트 대역폭이 압도적. Vulkan 벤치마크에서 Strix Halo를 쉽게 넘어섬. L2 레벨에서도 더 높은 대역폭 + 더 큰 용량으로 계속 리드

  • 컴퓨트 성능에서도 GB10이 한 수 위. Strix Halo의 20 WGP vs GB10의 48 SM인데, RDNA3.5 WGP가 기본 연산 실행 유닛 2배 + 높은 클럭이지만 그래도 GB10에 좀 못 미침

중요

> FP64(배정밀도) 성능은 둘 다 낮음. GB10은 FP64:FP32 비율이 1:64, Strix Halo는 1:32. 데이터센터 GPU와는 확실히 다른 포지션

소비자용 Blackwell이지 데이터센터용이 아님

  • 이 기사의 핵심 지적: GB10은 소비자용 Blackwell(compute capability 12.1)이지, B200 같은 데이터센터용(compute capability 10.0)이 아님. Nvidia가 "같은 아키텍처"라고 마케팅하지만 실제로는 최적화 타겟이 완전 다름

  • 데이터센터 변종은 더 많은 작업 in-flight 유지, 더 큰 L1/공유 메모리(256KB vs 128KB), 더 많은 FP64 유닛, 5세대 텐서코어 기능 등을 가짐

  • 포럼과 GitHub에서 데이터센터용 커널이 GB10에서 안 돌아가는 혼란이 실제로 발생하고 있음. "Strix Halo의 RDNA3.5가 MI300X와 같은 아키텍처라고 말하는 것과 같다"는 비유가 정확함

벤치마크 결과

  • FluidX3D (격자 볼츠만 유체 시뮬레이션): FP32와 FP16S에서 GB10이 Strix Halo 리드. 하지만 FP16C(커스텀 포맷)에서는 역전. Intel Arc B580이 GDDR6의 456GB/s 대역폭으로 양쪽 iGPU를 모두 크게 앞섬

  • VkFFT (FFT 벤치마크): GB10이 가장 일관된 성능으로 리드. Strix Halo는 어떤 테스트에서도 GB10을 못 이김. B580은 평균은 높지만 특정 구성에서 큰 손실

  • FAHBench (단백질 접힘 시뮬레이션): 단정밀도에서 GB10이 쉽게 1위. 로컬 메모리를 잘 활용하는 워크로드라 컴퓨트 처리량 우위가 잘 드러남. 다만 Strix Halo는 90°C 넘으면서 성능 떨어지는 게 보임 — 씬앤라이트 디바이스 타겟이라 열 제약이 큼

게이밍? 아직은 험난함

  • GB10의 치명적 약점은 ARM CPU. PC 게임 대부분이 x86-64 타겟 + 클로즈드 소스라 ARM 포트가 없음. 에뮬레이션으로 Cyberpunk 2077 돌리면 1080P 미디엄에서 약 50 FPS인데, Strix Halo는 같은 설정에서 90 FPS 가까이 나옴

  • Nvidia는 GB10을 컴퓨트 솔루션으로 포지셔닝하고 있고, 개발자가 데이터센터 안 가고 로컬에서 코드 테스트하는 용도로 밀고 있음. 개발자는 ARM 네이티브로 리컴파일 가능하니까 호환성 문제가 덜함

ℹ️참고

> 결론적으로 GB10은 흥미로운 제품이지만 타겟 오디언스가 좁음. Strix Halo처럼 통합 메모리와 소형 폼팩터의 장점이 있지만, iGPU 타협점과 디스크리트 GPU 대비 높은 가격이 걸림돌. 양쪽 모두 가격이 내려가고 타협이 줄어야 진짜 대중화될 듯

Nvidia가 '같은 Blackwell'로 마케팅하지만, 실제로는 소비자/데이터센터 변종 차이가 커서 혼란을 유발하고 있다는 지적이 핵심.

댓글

댓글

댓글을 불러오는 중...

ai-ml

오픈AI, 브로드컴과 만든 첫 자체 추론 칩 ‘할라페뇨’ 공개

오픈AI가 브로드컴과 함께 만든 첫 자체 추론 프로세서 ‘할라페뇨’를 공개했다. 아직 테스트 단계지만, 실시간 코딩 모델 같은 추론 워크로드에서 기존 최고 수준 대안보다 전력 대비 성능이 크게 좋다는 초기 결과를 내세웠다.

ai-ml

가트너 “네오클라우드, 2030년 AI 클라우드 시장 20% 먹는다”

생성형 AI 확산으로 GPU 기반 고성능 컴퓨팅 수요가 폭증하면서 AI 전용 클라우드 사업자인 네오클라우드가 커지고 있다는 분석이 나왔어. 가트너는 2030년 약 2,670억 달러 규모 AI 클라우드 시장에서 네오클라우드가 20%를 차지할 수 있다고 봤어. GPU 확보, 가격 경쟁력, 데이터 주권 대응이 핵심 포인트야.

ai-ml

스페이스X, 오픈소스 AI 스타트업에 초대형 컴퓨팅 파워 판다

리플렉션 AI가 스페이스X의 대형 데이터센터 인프라를 쓰기 위해 2029년까지 최대 63억달러 규모 계약을 맺었다는 내용이다. 월 1억5000만달러를 내고 엔비디아 GB300 기반 컴퓨팅 자원을 확보하는 구조이며, 스페이스X는 남는 AI 인프라를 외부 고객에게 파는 플랫폼 사업으로 확장하려는 흐름을 보인다. 오픈소스 AI 모델을 내세우는 리플렉션 AI가 정부·안보 시장에서 빠르게 커지고 있다는 점도 포인트다.

ai-ml

AI가 청소년의 ‘생각 훈련’을 건너뛰게 만든다는 경고

이 글은 생성형 AI가 청소년과 주니어에게 편리한 도구를 넘어 사고력 발달을 약화시킬 수 있다는 우려를 다뤄. 핵심은 AI 사용 자체가 문제라기보다, AI가 단일한 관계와 정보 통로가 되고 글쓰기·판단·고민의 과정을 대신해버릴 때 인지 훈련 기회가 사라진다는 점이야.

ai-ml

성남시, AI로 고독사 위험과 고령자 주차 문제를 같이 실증한다

성남시니어산업혁신센터가 AI 돌봄 자동화 플랫폼과 AI 스마트 주차관리 시스템의 실증기관으로 선정됐어. 각각 14억2500만 원, 30억 원 규모 사업이고, 고령자 돌봄과 교통약자 주차 편의라는 생활밀착형 문제를 AI로 풀어보겠다는 내용이야.