중고 데이터센터 GPU로 27B 로컬 LLM을 돌린 미친 가성비 실험
작성자는 RTX 4080이 들어간 게이밍 PC에 중고 Tesla V100 SXM2를 어댑터로 꽂아 총 32GB VRAM 환경을 만들었다. 약 200파운드로 Qwen3.6 27B 모델을 128k 컨텍스트와 비전 입력까지 포함해 로컬에서 돌렸고, 추론 속도는 약 32토큰/초까지 나왔다.
- 1
Tesla V100 SXM2 16GB와 어댑터 조합으로 약 200파운드에 VRAM 16GB를 추가함
- 2
V100은 2017년 GPU지만 HBM2 대역폭이 900GB/s로 RTX 4080의 736GB/s보다 높음
- 3
llama.cpp 텐서 분할로 RTX 4080과 V100에 Qwen3.6 27B 모델을 나눠 올림
- 4
Q5_K_M 양자화 모델 19GB, 128k 컨텍스트, 전체 GPU 오프로딩에서 약 32토큰/초를 기록함
- 5
드라이버는 Volta 지원 때문에 550 계열, CUDA는 12.2, 커널은 6.6으로 맞춰야 했음
로컬 LLM에서 병목이 연산 성능보다 VRAM 용량과 메모리 대역폭인 경우가 많다는 걸 아주 현실적인 삽질기로 보여줌. 새 플래그십 GPU만 답이 아니라 중고 서버 GPU, 드라이버 핀ning, 냉각 개조까지 조합하면 꽤 말도 안 되는 구성이 가능함.
관련 기사
스탠퍼드 CS336이 AI 코딩 도우미에 선을 그은 이유
스탠퍼드 CS336 과제 저장소에 올라온 AI 에이전트 가이드라인은 코딩 도우미를 '과제 해결기'가 아니라 '학습 보조자'로 제한하자는 내용이다. 개념 설명, 디버깅 질문, 코드 리뷰는 허용하지만 토크나이저, 트랜스포머 블록, 학습 루프 같은 핵심 구현을 대신 작성하는 건 금지한다.
앤트로픽, 미국 증권거래위원회에 기업공개 초안 비공개 제출
클로드를 만드는 앤트로픽이 미국 증권거래위원회에 기업공개를 위한 S-1 등록신고서 초안을 비공개로 냈다. 아직 상장 시점, 공모 주식 수, 가격은 정해지지 않았고, 시장 상황과 심사 결과에 따라 실제 기업공개 여부가 갈릴 수 있다.
비트코인 채굴업체 아이렌, GPU 확보에 36억5000만달러 조달
비트코인 채굴업체 아이렌이 AI 클라우드 사업 확대를 위해 36억5000만달러 규모의 GPU 도입 자금을 마련했다. 이 자금은 마이크로소프트 AI 클라우드 계약을 뒷받침하는 데 쓰일 예정이며, 채굴 인프라를 AI 컴퓨팅 인프라로 전환하려는 흐름을 보여준다.
네이버클라우드, 젠슨 황 방한 맞춰 엔비디아 협력안 공개 예고
김유원 네이버클라우드 대표가 엔비디아와의 구체적 협력안이 6월 8일쯤 3개 정도 발표될 것 같다고 밝혔다. 젠슨 황 엔비디아 최고경영자의 방한과 네이버 사옥 방문 가능성이 거론되며, 인공지능·클라우드·로보틱스 협력 기대가 커지고 있다.
젠슨 황 방한, 한국 인공지능 동맹이 반도체에서 로봇으로 넓어질까
젠슨 황 엔비디아 최고경영자가 컴퓨텍스 이후 한국을 찾아 네이버, 엘지, 현대차, 두산 등과 피지컬 인공지능 협력을 논의할 가능성이 커졌다는 내용임. 지난해 협력이 고대역폭 메모리와 인공지능 팩토리 중심이었다면, 이번에는 가정용 로봇·산업용 휴머노이드·스마트팩토리 같은 실제 물리 세계 애플리케이션으로 전선이 이동하는 분위기임.
댓글
댓글
댓글을 불러오는 중...