본문으로 건너뛰기
피드

Nvidia GB10 GPU 심층 분석: RTX 5070급 iGPU의 실체와 한계

ai-ml 약 6분

GB10의 iGPU는 48 SM/2.55GHz로 RTX 5070급이지만 소비자용 Blackwell 변종. AMD Strix Halo 대비 컴퓨트 벤치에서 우위지만, ARM CPU로 인한 게이밍 호환성 문제와 LPDDR5X 대역폭 한계가 존재.

  • 1

    48 SM, 최대 2.55GHz — 사실상 RTX 5070 내장

  • 2

    소비자용 Blackwell(CC 12.1), 데이터센터용(CC 10.0)과 다른 아키텍처

  • 3

    24MB L2로 GPU 트래픽 필터링하는 전략 (Strix Halo의 Infinity Cache와 대조)

  • 4

    FluidX3D/VkFFT/FAHBench에서 대체로 Strix Halo 리드

  • 5

    ARM CPU로 게이밍 성능 큰 타격 (Cyberpunk 50 FPS vs Strix Halo 90 FPS)

GB10 iGPU의 정체: RTX 5070급이 통합된 칩

  • Nvidia GB10의 내장 GPU는 48개 SM(Streaming Multiprocessor)이 최대 2.55GHz로 돌아감. 사실상 RTX 5070을 내장한 것이나 마찬가지임. RTX 5070은 전력/캐시/메모리 대역폭에서 여전히 우위지만, iGPU치고는 어마어마한 스펙

  • AMD Strix Halo와 자주 비교되는데, 결정적 차이는 CUDA 생태계. GPU 컴퓨팅 앱은 CUDA와 Nvidia GPU에 최적화가 먼저고, 나머지는 뒷전이거나 아예 고려 안 되는 현실임

캐시와 메모리: 전략이 다르다

  • GB10은 Blackwell GPU 그대로의 2단계 캐시 구조(L1 + 24MB L2). AMD는 더 많은 캐시 레벨을 써서 점진적으로 용량을 키우는 방식

  • GB10의 L1 캐시는 낮은 레이턴시 + 높은 용량 조합이 인상적. AMD의 스칼라/벡터 캐시를 합친 것보다 용량이 크면서도 레이턴시는 비슷하거나 더 낮음

  • 메모리 서브시스템 전략 차이가 흥미로운데: Strix Halo는 GPU 전용 "Infinity Cache"를 시스템 인터커넥트 반대편에 놓아서 Infinity Fabric에 1TB/s 가까운 부하를 줌. GB10은 24MB L2가 GPU 메모리 트래픽 대부분을 필터링해서 시스템 인터커넥트는 주로 DRAM 접근만 처리

  • 둘 다 LPDDR5X 사용. GB10은 8533 MT/s, Strix Halo는 8000 MT/s로 256비트 버스에서 각각 273 GB/s, 256 GB/s 이론 대역폭

대역폭과 컴퓨팅 성능

  • 48개 SM = 48개 L1 캐시 인스턴스라서 캐시 히트 대역폭이 압도적. Vulkan 벤치마크에서 Strix Halo를 쉽게 넘어섬. L2 레벨에서도 더 높은 대역폭 + 더 큰 용량으로 계속 리드

  • 컴퓨트 성능에서도 GB10이 한 수 위. Strix Halo의 20 WGP vs GB10의 48 SM인데, RDNA3.5 WGP가 기본 연산 실행 유닛 2배 + 높은 클럭이지만 그래도 GB10에 좀 못 미침

중요

> FP64(배정밀도) 성능은 둘 다 낮음. GB10은 FP64:FP32 비율이 1:64, Strix Halo는 1:32. 데이터센터 GPU와는 확실히 다른 포지션

소비자용 Blackwell이지 데이터센터용이 아님

  • 이 기사의 핵심 지적: GB10은 소비자용 Blackwell(compute capability 12.1)이지, B200 같은 데이터센터용(compute capability 10.0)이 아님. Nvidia가 "같은 아키텍처"라고 마케팅하지만 실제로는 최적화 타겟이 완전 다름

  • 데이터센터 변종은 더 많은 작업 in-flight 유지, 더 큰 L1/공유 메모리(256KB vs 128KB), 더 많은 FP64 유닛, 5세대 텐서코어 기능 등을 가짐

  • 포럼과 GitHub에서 데이터센터용 커널이 GB10에서 안 돌아가는 혼란이 실제로 발생하고 있음. "Strix Halo의 RDNA3.5가 MI300X와 같은 아키텍처라고 말하는 것과 같다"는 비유가 정확함

벤치마크 결과

  • FluidX3D (격자 볼츠만 유체 시뮬레이션): FP32와 FP16S에서 GB10이 Strix Halo 리드. 하지만 FP16C(커스텀 포맷)에서는 역전. Intel Arc B580이 GDDR6의 456GB/s 대역폭으로 양쪽 iGPU를 모두 크게 앞섬

  • VkFFT (FFT 벤치마크): GB10이 가장 일관된 성능으로 리드. Strix Halo는 어떤 테스트에서도 GB10을 못 이김. B580은 평균은 높지만 특정 구성에서 큰 손실

  • FAHBench (단백질 접힘 시뮬레이션): 단정밀도에서 GB10이 쉽게 1위. 로컬 메모리를 잘 활용하는 워크로드라 컴퓨트 처리량 우위가 잘 드러남. 다만 Strix Halo는 90°C 넘으면서 성능 떨어지는 게 보임 — 씬앤라이트 디바이스 타겟이라 열 제약이 큼

게이밍? 아직은 험난함

  • GB10의 치명적 약점은 ARM CPU. PC 게임 대부분이 x86-64 타겟 + 클로즈드 소스라 ARM 포트가 없음. 에뮬레이션으로 Cyberpunk 2077 돌리면 1080P 미디엄에서 약 50 FPS인데, Strix Halo는 같은 설정에서 90 FPS 가까이 나옴

  • Nvidia는 GB10을 컴퓨트 솔루션으로 포지셔닝하고 있고, 개발자가 데이터센터 안 가고 로컬에서 코드 테스트하는 용도로 밀고 있음. 개발자는 ARM 네이티브로 리컴파일 가능하니까 호환성 문제가 덜함

ℹ️참고

> 결론적으로 GB10은 흥미로운 제품이지만 타겟 오디언스가 좁음. Strix Halo처럼 통합 메모리와 소형 폼팩터의 장점이 있지만, iGPU 타협점과 디스크리트 GPU 대비 높은 가격이 걸림돌. 양쪽 모두 가격이 내려가고 타협이 줄어야 진짜 대중화될 듯

Nvidia가 '같은 Blackwell'로 마케팅하지만, 실제로는 소비자/데이터센터 변종 차이가 커서 혼란을 유발하고 있다는 지적이 핵심.

댓글

댓글

댓글을 불러오는 중...

ai-ml

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.