쿠다 커널 한 줄이 실제 지피유에서 실행되기까지 벌어지는 일
단순한 벡터 덧셈 쿠다 커널이 컴파일, 런타임 등록, 드라이버 호출, 지피유 명령 큐, 와프 스케줄링, 메모리 계층을 거쳐 실행되는 과정을 깊게 추적한 글이다. 엔비디아 RTX 4090에서 4096개 블록과 256개 스레드로 104만8576개 float를 더하는 예제를 사용하며, 실행 뒤에는 900개가 넘는 ioctl, QMD, GPFIFO, 도어벨 레지스터, 와프 스코어보드 같은 저수준 메커니즘이 동원된다.
- 1
nvcc는 쿠다 코드를 호스트 코드, PTX, SASS, fatbin이 포함된 실행 파일로 만든다
- 2
커널 실행 시 CUDA 런타임은 fatbin 등록 정보와 호스트 스텁을 이용해 드라이버로 넘어간다
- 3
드라이버는 QMD를 pushbuffer와 GPFIFO에 넣고 도어벨 MMIO 쓰기로 GPU에 작업을 알린다
- 4
RTX 4090에서는 128개 SM, 블록당 256스레드, 스레드당 16레지스터 조건에서 SM당 최대 6블록이 상주한다
- 5
예제 커널은 산술보다 메모리 대역폭이 병목이며 Nsight Compute 기준 10.78마이크로초, DRAM 피크의 79.65퍼센트를 사용했다
쿠다를 ‘커널 호출하면 병렬로 돈다’ 정도로 이해하던 사람에게는 꽤 좋은 해부도다. 특히 컴파일러가 스케줄링 정보를 명령어에 박아 넣고, 드라이버가 QMD와 도어벨로 GPU를 깨우는 부분은 성능 튜닝할 때 추상화 아래를 보는 감각을 준다.
관련 기사
메타가 남는 AI 컴퓨팅을 클라우드로 팔 수도 있다는 얘기에 시장이 뒤집힘
메타가 남는 AI 컴퓨팅 자원과 모델 접근권을 외부에 판매하는 클라우드 사업을 검토 중이라는 보도가 나왔다. 메타 주가는 장중 10% 가까이 뛰었지만, 마이크론과 코어위브 같은 AI 인프라 관련주는 공급 과잉 우려로 크게 밀렸다. 핵심은 빅테크의 AI 투자금 회수 전략이 GPU·HBM 수요를 더 키울지, 아니면 이미 사둔 자원을 시장에 다시 풀어 수요를 잠식할지다.
메타, 남는 AI 컴퓨팅으로 클라우드 장사까지 노린다
메타가 자사 데이터센터의 남는 AI 컴퓨팅 자원을 외부 고객에게 파는 클라우드 사업을 검토 중이다. 모델 API를 제공하는 방식과 GPU 같은 연산 자원만 빌려주는 방식이 함께 거론되고, 이 소식에 메타 주가는 9.48% 급등한 반면 코어위브와 반도체주는 크게 흔들렸다.
메타, 남는 AI 연산 자원 팔아서 클라우드 사업 뛰어드나
메타가 인공초지능 개발을 위해 쌓아둔 데이터센터와 GPU 인프라를 외부 고객에게 판매하는 클라우드 사업을 검토 중인 것으로 알려졌다. 자체 AI 모델 API를 제공하는 PaaS 방식과 순수 연산 자원을 임대하는 IaaS 방식이 모두 거론되며, 시장은 메타 주가 10% 상승과 네오클라우드 주가 급락으로 바로 반응했다.
피지컬 AI 시대, 한국 반도체는 메모리만으론 부족하다는 경고
성균관대 이우근 교수가 피지컬 AI 시대에는 한국 반도체 산업이 메모리 중심 구조를 넘어 아날로그·통신 설계자산과 팹리스 생태계를 키워야 한다고 주장했다. 생성형 AI 덕분에 고대역폭메모리의 전략적 가치는 커졌지만, 로봇·자율주행·산업용 기계처럼 기기 자체에서 판단하고 움직이는 환경에선 센서·통신·전력관리 반도체가 더 중요해진다는 내용이다.
미국 중앙정보국장 “AI는 디지털 핵무기”, 조직도 코드 중심으로 바꾼다
미국 중앙정보국장이 공개 행사에서 AI를 ‘디지털 핵무기’급 기술로 규정하며, 조직을 사이버·기술 중심으로 개편하겠다고 밝혔다. 베네수엘라 대통령 체포 작전과 이란 추락 전투기 조종사 위치 파악 사례까지 언급하며 AI가 정보전의 판을 바꾸고 있다고 강조했다.
댓글
댓글
댓글을 불러오는 중...