로컬에서 최상급 LLM 돌리려면 2천 달러와 4만 달러 사이에서 뭘 사야 하나
James O'Beirne이 로컬에서 최신급 LLM과 음성 인식 모델을 돌리기 위해 직접 구성한 하드웨어, GPU, PCIe 스위치, Docker 실행 구성을 정리한 가이드다. 2천 달러급 2× RTX 3090 구성부터 4× RTX PRO 6000으로 384GB VRAM을 확보하는 4만 달러대 구성까지, 돈을 어디에 써야 하는지와 멀티 GPU P2P 병목을 어떻게 피했는지가 핵심이다.
- 1
2× RTX 3090으로 48GB VRAM을 확보하면 Qwen3.6-27B와 whisper-large-v3 로컬 STT까지 가능
- 2
고가 구성은 4× RTX PRO 6000 Blackwell Workstation으로 384GB VRAM을 확보해 GLM-5.2 594B급 모델을 노림
- 3
저자는 PCIe5·DDR5 기반 시스템 대신 중고 EPYC·DDR4 베이스와 PCIe4 스위치에 투자해 비용을 VRAM 중심으로 배분함
- 4
PCIe 스위치, ACS 비활성화, IOMMU off, Re-Size BAR, ASPM 설정이 멀티 GPU P2P 성능의 핵심으로 등장함
- 5
측정 결과 스위치 경유 P2P가 단방향 27.5GB/s, 양방향 50.4GB/s, 지연시간 0.37~0.45µs 수준을 기록함
로컬 LLM은 이제 'GPU 몇 장 꽂으면 끝'이 아니라 VRAM, PCIe 토폴로지, 전력, BIOS, 컨테이너 운영까지 같이 보는 시스템 엔지니어링 문제가 됐다. 특히 멀티 GPU 추론에서는 모델보다 버스와 설정이 먼저 발목 잡을 수 있다는 점이 꽤 실전적임.
관련 기사
노타의 VLM 영상 관제 솔루션, 네이버클라우드 마켓플레이스에 올라감
노타가 비전 언어 모델 기반 영상 관제 솔루션 NVA를 네이버클라우드 마켓플레이스에 등록했다. NVA는 단순 객체 탐지를 넘어 영상 속 상황과 맥락을 텍스트로 설명하고 이상 상황을 분석·요약하는 솔루션이다. 산업안전, 교통, 재난 대응, 공공 선별관제 등으로 적용 범위를 넓히고 있으며 2026년 상반기 수주는 전년 동기 대비 1.8배 늘었다.
메타 클라우드설, 국내 CSP 밸류에이션에도 불 붙일까
메타가 자체 AI 인프라를 외부에 판매하는 클라우드 사업을 검토하면서 AI 설비투자를 비용이 아니라 수익 자산으로 보는 시각이 커지고 있다. 한화투자증권은 메타가 단기적으로 AWS, Azure, GCP를 대체하기는 어렵지만, AI 인프라 회수 논리가 국내 CSP와 소프트웨어 기업 가치에도 영향을 줄 수 있다고 봤다. 네이버는 B2B 소버린 AI와 공공 클라우드, 삼성SDS는 MSP 매출 기대가 언급됐다.
메타의 클라우드 진출, 그냥 GPU 장사보다 ‘AI 정제소’ 싸움이 더 중요해졌다는 신호
메타가 남는 AI 컴퓨팅을 외부에 판매하는 클라우드 사업을 검토 중이라는 보도는 AI 인프라 경제가 바뀌고 있음을 보여준다. 단순 GPU 임대보다 모델, 소프트웨어, 칩을 같이 최적화해 추론을 더 비싸게 파는 쪽이 진짜 마진을 만든다는 분석이다. 한국의 800조원 규모 AI 인프라 투자도 하드웨어 구축을 넘어 이를 지휘할 소프트웨어와 모델 오케스트레이션이 핵심 과제로 떠오른다.
메타의 AI 전략이 흔들리는 이유: 라마4 논란부터 인프라 재판매까지
메타가 AI 컴퓨팅 파워를 외부에 판매하는 클라우드 사업을 검토하는 가운데, 라마4 실패와 조직 혼선, 막대한 설비투자 부담이 함께 부각되고 있다. 오픈소스 전략의 흔들림, 인재 영입 경쟁, 내부 사기 저하까지 겹치며 메타의 AI 전략이 방향을 잃었다는 분석이 나온다.
GPU 부족 시대, 모델 압축으로 한 대가 두세 대 몫 하게 만들겠다는 백보드
백보드닷아이오가 AI 모델을 최대 70% 압축해 GPU 효율을 높이는 백보드퀀트와 기업용 AI 운영 스택을 발표했다. 내부 테스트에서는 풀프리시전 모델과 비슷한 정확도를 유지하면서 추론 속도를 최대 2.7배 높였고, 코딩 도구 비용도 최대 90% 낮출 수 있다고 주장했다.
댓글
댓글
댓글을 불러오는 중...