본문으로 건너뛰기
피드

칩셋 레이턴시를 측정해봤더니 — 쓸모는 없지만 재밌는 실험

backend 약 4분

Vulkan GPU 벤치마크로 여러 세대 마더보드 칩셋의 PCIe 레이턴시를 측정한 실험. CPU 직결 대비 칩셋 경유 시 수백 ns 레이턴시가 추가되며, 의외로 2012년 Skylake Z170이 가장 낮은 추가 레이턴시를 보임.

  • 1

    AMD AM5 CPU 직결 650ns, 칩셋 1개 경유 +570ns, 2개 경유 +921ns

  • 2

    Intel Arrow Lake CPU 직결 785ns, PCH 경유 +550ns

  • 3

    Skylake Z170이 +338ns로 현세대보다 오히려 양호

  • 4

    칩셋 경유 시 GPU 캐시 히트 대역폭도 크게 제한됨

왜 칩셋을 벤치마킹하나

  • 마더보드 칩셋은 시간이 지나면서 성능 핵심 역할을 거의 다 잃었음. Athlon 64 시절에 메모리 컨트롤러가 CPU로 들어갔고, Sandy Bridge 때 PCIe 레인도 CPU로 올라옴. 지금 칩셋은 IO 기능을 호스팅하지만 성능 방정식에서는 각주 수준임

  • 유용하진 않지만 재미는 있으니까 해보자는 취지. Vulkan 기반 GPU 벤치마크를 수정해서 호스트 메모리에서 GPU 메모리 접근 레이턴시를 측정함. CPU PCIe 슬롯 vs 사우스브리지 PCIe 슬롯 차이를 보는 거임. 테스트 GPU는 1슬롯짜리 Nvidia T1000

플랫폼별 결과

  • AMD AM5 (Zen 5):

    • CPU PCIe 레인: 약 650ns 기본 레이턴시
    • B650 칩셋(PROM21 1개) 경유: 1,221ns (+570ns)
    • X670E 칩셋(PROM21 2개) 경유: +921ns — 칩셋 하나 더 거치면 레이턴시가 더 늘어남
    • 칩셋 경유 시 GPU 캐시 히트 대역폭이 25 GB/s 수준으로 떨어짐
  • Intel Arrow Lake (Z890):

    • CPU PCIe 레인: 785ns (Zen 5보다 높음)
    • PCH 경유: +약 550ns (B650의 PROM21 1개와 비슷)
  • Intel Skylake (Z170):

    • CPU PCIe 레인: 535.59ns — 의외로 가장 낮은 기본 레이턴시
    • Z170 PCH 경유: +338ns — 현세대보다 오히려 나음
    • PCH 경유 시 캐시 히트 대역폭 51 GB/s 이상
  • AMD AM3+ (990X, Piledriver):

    • 모든 PCIe가 외부 노스브리지를 거치는 옛날 구조인데도 기본 레이턴시가 769.67ns로 선방
    • SB950 사우스브리지 경유: +602ns
    • 990X 노스브리지의 프로브 처리량이 IO 대역폭(10.5 GB/s)을 포화시키는 데 필요한 것의 10배나 됨

미스터리와 결론

  • VK_MEMORY_PROPERTY_HOST_COHERENT_BIT 설정 시 GPU 캐시 히트에도 대량의 프로브 트래픽이 발생하는데, 프로브가 64바이트 캐시라인이 아니라 512바이트마다 1개씩 발생하는 이상한 현상이 있음. 아직 설명 못 함

  • 칩셋 PCIe 레인은 수백 ns의 레이턴시 패널티와 대역폭 제한을 부과함. 하지만 SSD나 네트워크 어댑터는 μs~ms 단위 레이턴시이므로 수백 ns는 의미 없음. 멀티 GPU가 사라진 지금, 칩셋은 저렴한 비용과 더 나은 연결성에 최적화될 거지 레이턴시 최적화는 기대하기 어려움

쓸모 없는 벤치마크라고 스스로 인정하면서도 재미로 밀고 가는 게 오히려 매력적. 하드웨어 덕후라면 플랫폼별 수치 비교만으로도 흥미로울 듯.

댓글

댓글

댓글을 불러오는 중...

backend

Cloudflare가 잡아낸 QUIC CUBIC 버그, ‘idle’ 한 줄 오판이 다운로드를 죽였다

Cloudflare의 QUIC 구현체 quiche에서 CUBIC 혼잡 제어가 최소 윈도우에 갇혀 회복하지 못하는 버그가 발견됐다. Linux 커널의 idle 최적화를 QUIC에 옮기는 과정에서 TCP와 QUIC의 이벤트 타이밍 차이를 놓쳤고, 결국 ACK 시점을 기준으로 idle 시간을 재도록 고쳐 100% 테스트 통과를 회복했다.

backend

삼성전자가 반도체 개발 조직에 오라클 자바를 공식 채택한 이유

삼성전자 DS 부문이 글로벌 반도체 개발 환경에 오라클 자바 SE 유니버설 서브스크립션을 공식 채택했다. 서로 다른 자바 배포판과 버전이 섞이면서 생길 수 있는 보안, 컴플라이언스, 라이선스 리스크를 줄이고 개발 환경을 표준화하려는 결정이다.

backend

네이버클라우드, 트래픽 따라 알아서 줄고 느는 서버리스 데이터베이스 출시

네이버클라우드가 사용량에 따라 CPU, 메모리, 스토리지를 자동 조절하는 완전관리형 서버리스 데이터베이스 서비스를 내놨다. 기존 가상머신 기반 관리형 데이터베이스처럼 피크 트래픽에 맞춰 서버를 과하게 잡아두는 방식에서 벗어나, 사용량 기반 과금과 오토스케일링으로 비용 낭비를 줄이겠다는 방향이다.

backend

네이버클라우드, 사용량 따라 늘고 줄어드는 서버리스 데이터베이스 출시

네이버클라우드가 완전관리형 서버리스 데이터베이스 서비스인 Cloud DB Serverless를 출시했다. VM 기반 관리형 데이터베이스의 고정 비용과 과잉 프로비저닝 문제를 줄이고, 트래픽에 따라 CPU·메모리·스토리지를 자동 조절하는 구조를 내세운다.

backend

네이버클라우드, 사용량 따라 자동 확장되는 서버리스 데이터베이스 출시

네이버클라우드가 사용량에 따라 컴퓨팅 자원을 자동 조절하는 서버리스 기반 클라우드 데이터베이스를 출시했음. 기존 가상머신 기반 관리형 데이터베이스의 고정 비용과 운영 부담을 줄이고, 국내 데이터 규제 요구까지 맞추겠다는 전략임.