---
title: "1비트 가중치 LLM 'Bonsai' 등장 — 8B 모델이 1.15GB로 돌아감"
published: 2026-03-31T21:01:18.000Z
canonical: https://jeff.news/article/1463
---
# 1비트 가중치 LLM 'Bonsai' 등장 — 8B 모델이 1.15GB로 돌아감

PrismML이 상용화 가능한 최초의 1비트 가중치 LLM 시리즈 Bonsai를 공개함. 8B 모델 기준 풀 정밀도 대비 14배 작은 1.15GB 메모리로 8배 빠른 추론 속도를 달성했고, 1.7B 모델은 iPhone에서 초당 130토큰을 처리함.

- PrismML이 상용화 가능한 최초의 1비트 가중치(1-bit weights) LLM 시리즈 "Bonsai"를 공개함
  - 8B, 4B, 1.7B 세 가지 사이즈로 출시 — 로보틱스, 실시간 에이전트, 엣지 컴퓨팅 타겟
  - 핵심은 "1비트 가중치"로 모델 크기를 극단적으로 줄이면서도 벤치마크 성능을 유지했다는 것

> [!IMPORTANT]
> Bonsai 8B가 메모리 1.15GB만 차지함. 풀 정밀도(full-precision) 8B 모델 대비 14배 작고, 8배 빠르고, 에너지 효율은 5배 높음. 인텔리전스 밀도가 10배 이상이라는 거임.

- Bonsai 4B는 0.57GB 메모리로 M4 Pro에서 초당 132토큰 처리 속도를 달성함
  - 정확도와 속도를 동시에 잡았다는 게 포인트 — 엣지 디바이스에서 실시간 추론이 현실적으로 가능한 수준
- Bonsai 1.7B는 더 극단적임 — 메모리 0.24GB, iPhone 17 Pro Max에서 초당 130토큰
  - 모바일 온디바이스 AI의 실용적 한계를 한 단계 끌어올린 수치
  - "가벼운 모델이 무거운 일을 한다"는 컨셉 그대로임

## 핵심 포인트

- 1비트 가중치로 8B 모델을 1.15GB까지 축소, 풀 정밀도 대비 인텔리전스 밀도 10배 이상
- 4B 모델은 M4 Pro에서 132 tok/s, 1.7B는 iPhone 17 Pro Max에서 130 tok/s 달성
- 로보틱스, 실시간 에이전트, 엣지 컴퓨팅 등 온디바이스 AI 시나리오 타겟

## 인사이트

1비트 양자화가 연구 단계를 넘어 상용 모델로 나온 건 의미가 큼. 온디바이스 LLM의 실용성 문턱이 확 낮아지는 신호임.
