---
title: "llmfit - 내 PC 사양에 맞는 LLM 모델 자동 추천 터미널 도구"
published: 2026-03-01T23:15:16.000Z
canonical: https://jeff.news/article/206
---
# llmfit - 내 PC 사양에 맞는 LLM 모델 자동 추천 터미널 도구

시스템의 RAM, CPU, GPU를 자동 감지해서 돌릴 수 있는 LLM 모델을 추천해주는 Rust 기반 터미널 도구. 품질, 속도, 적합도, 컨텍스트 4개 차원으로 점수를 매기고, Ollama/llama.cpp/MLX 등 주요 로컬 런타임과 통합되어 TUI에서 바로 모델 다운로드까지 가능함.

- 시스템의 RAM, CPU, GPU를 자동 감지해서 돌릴 수 있는 LLM 모델을 추천해주는 Rust 기반 CLI/TUI 도구임. "이 모델 내 컴퓨터에서 돌아갈까?" 고민을 한방에 해결해줌
- 품질(Quality), 속도(Speed), 적합도(Fit), 컨텍스트(Context) 4개 차원으로 0~100점 매겨서 종합 점수로 랭킹을 보여줌. 용도별(코딩, 추론, 채팅 등)로 가중치가 달라짐
- 속도 추정은 LLM 추론이 메모리 대역폭(memory bandwidth) 바운드라는 점을 이용함. GPU 약 80종의 대역폭 테이블을 내장하고 있어서 실제 벤치마크 없이도 tok/s를 꽤 정확하게 예측함
- MoE(Mixture-of-Experts) 아키텍처 자동 감지 지원. Mixtral 8x7B 같은 모델은 전체 46.7B 파라미터 중 토큰당 12.9B만 활성화되니까 VRAM 요구량이 23.9GB가 아니라 ~6.6GB로 계산됨
- 동적 양자화(dynamic quantization) 선택 기능이 있어서 Q8_0부터 Q2_K까지 내 하드웨어에 맞는 최고 품질 양자화를 자동으로 골라줌. 풀 컨텍스트로 안 되면 절반으로 재시도함
- Ollama, llama.cpp, MLX, Docker Model Runner, LM Studio 등 주요 로컬 런타임 프로바이더 통합 지원. TUI에서 'd' 키 누르면 바로 모델 다운로드 가능
- NVIDIA, AMD, Intel Arc, Apple Silicon, Ascend NPU까지 멀티 GPU 포함 폭넓은 하드웨어 감지 지원. 자동 감지 실패 시 `--memory` 플래그로 수동 지정 가능
- Plan 모드가 재밌는데, 평소와 반대로 "이 모델을 돌리려면 어떤 하드웨어가 필요한가"를 알려줌. 업그레이드 계획 세울 때 유용함
- HuggingFace API에서 수백 개 모델 정보를 스크래핑해서 컴파일 타임에 바이너리에 임베딩하는 구조. 10가지 컬러 테마, 웹 대시보드, HTTP API 서버 모드까지 갖추고 있음
- 비슷한 도구로 llm-checker(Node.js)가 있는데, 이쪽은 실제로 모델을 돌려서 벤치마크하는 방식. llmfit은 스펙 기반 추정이라 모델 안 받아도 바로 비교 가능한 게 장점임

## 핵심 포인트

- RAM/CPU/GPU 자동 감지 후 4차원 점수(품질·속도·적합도·컨텍스트)로 모델 랭킹
- MoE 아키텍처 자동 감지, 동적 양자화 선택, 메모리 대역폭 기반 속도 추정
- Ollama, llama.cpp, MLX, Docker Model Runner, LM Studio 통합 지원
- NVIDIA, AMD, Intel Arc, Apple Silicon, Ascend NPU 등 폭넓은 하드웨어 지원
- Plan 모드로 특정 모델에 필요한 하드웨어 사양 역산 가능

## 인사이트

로컬 LLM 입문자에게 특히 유용한 도구. 모델을 실제로 받기 전에 스펙 기반으로 빠르게 비교할 수 있다는 게 핵심 장점임.