---
title: "Apple, 3B 파라미터 온디바이스 GUI 에이전트 Ferret-UI Lite 공개"
published: 2026-02-20T23:29:55.000Z
canonical: https://jeff.news/article/1033
---
# Apple, 3B 파라미터 온디바이스 GUI 에이전트 Ferret-UI Lite 공개

Apple이 3B 파라미터의 온디바이스 GUI 에이전트 Ferret-UI Lite를 공개함. 실시간 크롭&줌과 멀티 에이전트 기반 자체 학습 데이터 생성 파이프라인으로 최대 24배 큰 모델과 동등한 성능을 달성함.

## Ferret-UI Lite: 3B 파라미터로 24배 큰 모델을 이기는 온디바이스 GUI 에이전트

- Apple이 Ferret-UI Lite를 공개함 — 3B 파라미터짜리 온디바이스 GUI 에이전트 모델로, 최대 24배 큰 모델과 동등하거나 더 나은 벤치마크 성능을 보임
- Ferret 시리즈는 2023년 첫 논문에서 시작해 Ferret-v2, Ferret-UI(13B), Ferret-UI 2로 확장되어 왔고, Ferret-UI Lite는 이 계보의 경량화 버전임

## 핵심 기술: 실시간 크롭 & 자체 학습 데이터 생성

- **실시간 크롭 앤 줌** 기법이 특히 주목할 만함 — 먼저 초기 예측을 하고, 해당 영역을 잘라낸 뒤, 잘라낸 이미지에서 다시 예측함. 3B라는 작은 모델이 제한된 이미지 토큰 처리 능력을 보완하는 방식임
- 학습 데이터를 스스로 생성하는 멀티 에이전트 파이프라인을 구축함: 커리큘럼 태스크 생성기가 점점 어려운 목표를 제안하고, 플래닝 에이전트가 단계를 나누고, 그라운딩 에이전트가 실행하고, 크리틱 모델이 결과를 평가함
- 이 파이프라인 덕분에 실제 환경에서 발생하는 오류, 예상 못한 상태, 복구 전략 같은 "지저분한" 데이터를 대규모로 확보할 수 있었음. 사람이 직접 라벨링한 깨끗한 데이터만으로는 어려운 부분임

> [!NOTE]
> 기존 Ferret-UI 시리즈가 iPhone 스크린샷 등 Apple 인터페이스로 평가한 반면, Ferret-UI Lite는 Android, 웹, 데스크톱 환경(AndroidWorld, OSWorld 벤치마크)에서 학습·평가됨. 재현 가능한 대규모 테스트베드가 이쪽에 있기 때문으로 추정됨

## 트레이드오프와 의의

- 짧은 호라이즌의 저수준 태스크에서는 강했지만, 복잡한 멀티스텝 인터랙션에서는 상대적으로 약했음 — 작은 온디바이스 모델의 예상 가능한 한계임
- 가장 큰 장점은 완전 온디바이스 실행이라는 점 — 데이터가 클라우드로 나가지 않으므로 프라이버시가 보장됨
- SFT(지도 학습 미세조정) + 강화학습을 결합한 훈련 방식을 사용해 3B라는 제약 안에서 성능을 최대한 끌어올림

## 핵심 포인트

- 3B 파라미터로 최대 24배 큰 GUI 에이전트 모델과 동등/상회하는 벤치마크 성능
- 실시간 크롭&줌 기법으로 작은 모델의 이미지 토큰 처리 한계를 보완
- 멀티 에이전트 파이프라인으로 합성 학습 데이터를 자체 생성
- 짧은 호라이즌 태스크에 강하나 복잡한 멀티스텝 인터랙션에서는 약함
- 완전 온디바이스 실행으로 프라이버시 보장

## 인사이트

서버 사이드 대형 모델 중심이던 GUI 에이전트 분야에서 3B급 온디바이스 모델이 경쟁력 있는 성능을 보여준 것은, 향후 모바일 기기에서 프라이버시를 유지하면서 앱을 자율 조작하는 에이전트의 실용화 가능성을 시사함.
