---
title: "Rover — 스크립트 태그 한 줄로 사이트에 AI 에이전트를 심는 DOM 네이티브 접근"
published: 2026-02-13T22:26:46.000Z
canonical: https://jeff.news/article/750
---
# Rover — 스크립트 태그 한 줄로 사이트에 AI 에이전트를 심는 DOM 네이티브 접근

아마존 Rufus가 2.5억 사용자·$120억 추가 매출을 증명했지만 일반 사이트는 따라하기 어려움. Rover는 DOM을 시맨틱하게 읽어 스크린샷 없이 UI 조작하는 임베디드 AI 에이전트. WebBench 81.39% 달성, Google WebMCP와 대비되는 접근.

- 아마존의 AI 쇼핑 어시스턴트 Rufus가 2년 만에 **활성 사용자 2.5억 명** 돌파. Rufus 사용 고객은 구매 완료 확률이 **60% 높고**, 2024년 블랙프라이데이에 Rufus 세션의 전환율은 기본 대비 **3.5배**. 2025년 기준 약 **$120억 추가 매출** 발생

- 문제는 Rufus가 수천 명의 엔지니어, 수십 년 축적 카탈로그 데이터, 약 $2.85억의 운영비가 들었다는 것. 나머지 10억 개 이상의 웹사이트가 이걸 어떻게 따라하냐는 게 핵심 질문

## 기존 선택지의 한계

- **직접 구축**: RAG 파이프라인, 커스텀 코드 훅, 스택 전반 통합 + 지속적 유지보수. 소규모 비즈니스에는 비현실적
- **Intercom, Drift 등 서포트 챗봇**: 티켓 50% 감소 효과는 있지만, 질문 답변이나 서포트 API 호출만 가능. 체크아웃 안내, 버튼 클릭, 폼 작성, 제품 데모는 못 함. 해상도당 $0.99 과금
- **Google WebMCP**: 사이트의 내부 API를 구조화된 도구로 노출하면 Chrome AI 에이전트가 직접 호출하는 프로토콜. 하지만 통합 작업과 스키마 유지는 사이트 측이 하고, 사용자가 실제로 대화하는 건 Chrome 내 Google 에이전트. 즉 **구글이 사이트와 유저 사이를 더 벌리는 구조**

## Rover의 접근: DOM 네이티브

- Rover는 스크립트 태그 한 줄을 사이트에 삽입하면 작동하는 임베디드 AI 에이전트. RAG 파이프라인 없음, API 노출 없음, 스키마 유지보수 없음

- 스크린샷 기반 에이전트(Operator, Computer Use 등)와 다르게, **라이브 DOM을 시맨틱하게 읽음**. "장바구니 담기"가 구매 액션이고, 사이드바가 네비게이션이고, 모달이 폼이라는 걸 이해함. 비전 모델로 픽셀 좌표 추측하는 방식이 아님

- WebBench에서 **81.39%** 달성, 테스트한 모든 스크린샷 기반 접근보다 높다고 주장

- 실제 동작 예시: 사용자가 "체크아웃 도와줘" → Rover가 장바구니 추가, 체크아웃 이동, 정보 입력, 확인까지 UI 상에서 직접 수행. 사용자가 화면에서 진행 과정을 볼 수 있음

- 2년간 DOM 네이티브 아키텍처와 Smart DOM Trees를 개발했고, 21,000+ 사용자, 150만+ 워크플로우 실행 실적이 있다고 함

> [!NOTE]
> Show HN 글이라 셀프 프로모션이 강하지만, Google WebMCP가 "구글의 에이전트가 사용자와 대화"하는 구조 vs Rover가 "사이트의 에이전트가 사이트 UI에서 직접 행동"하는 구조라는 대비는 꽤 흥미로운 관점

## 핵심 포인트

- 아마존 Rufus: 2.5억 사용자, 전환율 3.5x, $120억 추가 매출
- Rover: DOM 네이티브, 스크린샷·RAG·API 노출 없이 작동
- WebBench 81.39%로 스크린샷 기반 에이전트 대비 우위 주장
- Google WebMCP와 대비: 사이트 에이전트 vs 구글 에이전트
- 21,000+ 사용자, 150만+ 워크플로우 실행

## 인사이트

Google WebMCP가 '구글의 에이전트'를 만드는 반면 Rover는 '사이트의 에이전트'를 만든다는 프레이밍이 흥미로움. Show HN이라 셀프 프로모션은 감안해야 함.
