---
title: "Cloudflare, API 한 번으로 웹사이트 전체를 크롤링하는 /crawl 엔드포인트 오픈 베타 출시"
published: 2026-03-10T22:27:15.000Z
canonical: https://jeff.news/article/416
---
# Cloudflare, API 한 번으로 웹사이트 전체를 크롤링하는 /crawl 엔드포인트 오픈 베타 출시

Cloudflare Browser Rendering에 /crawl 엔드포인트가 오픈 베타로 추가됨. 시작 URL 하나로 전체 사이트를 크롤링하고 HTML, Markdown, JSON으로 반환하며, robots.txt를 준수하는 비동기 크롤링 API.

- Cloudflare Browser Rendering에 새로운 `/crawl` 엔드포인트가 오픈 베타로 추가됨 — 시작 URL 하나만 넘기면 전체 사이트를 크롤링해줌
- 페이지를 자동으로 발견하고, 헤드리스 브라우저에서 렌더링한 뒤 **HTML, Markdown, 구조화된 JSON** 등 다양한 포맷으로 반환함
- robots.txt와 AI Crawl Control을 기본으로 준수하는 signed-agent라서 사이트 규칙 준수가 쉬움
- 크롤 작업은 비동기로 실행됨 — URL 제출하면 job ID를 받고, 처리 완료 후 결과를 가져가는 방식

## 주요 기능

- **크롤 범위 제어**: depth, 페이지 수 제한, 와일드카드 패턴으로 포함/제외 URL 경로 설정 가능
- **자동 페이지 발견**: sitemap, 페이지 내 링크, 또는 둘 다로 URL 탐색
- **증분 크롤링**: `modifiedSince`, `maxAge` 파라미터로 변경되지 않은 페이지를 건너뛰어 반복 크롤링 비용 절감
- **정적 모드**: `render: false`로 브라우저 없이 정적 HTML만 가져오는 빠른 크롤링 지원
- **crawl-delay 포함 robots.txt 디렉티브 준수**, 봇으로 자체 식별함

## 참고사항

- Workers Free와 Paid 플랜 모두에서 사용 가능
- Cloudflare 봇 감지나 캡차를 우회할 수 없음
- RAG 파이프라인 구축, 모델 학습, 사이트 콘텐츠 모니터링 등에 활용 가능

## 핵심 포인트

- 시작 URL 하나로 전체 사이트 크롤링, HTML/Markdown/구조화된 JSON 포맷으로 반환
- robots.txt와 AI Crawl Control을 기본 준수하는 signed-agent
- 증분 크롤링(modifiedSince, maxAge)으로 반복 크롤링 비용 절감 가능
- 정적 모드(render: false)로 브라우저 없이 빠른 크롤링 지원
- Workers Free와 Paid 플랜 모두에서 사용 가능, Cloudflare 봇 감지는 우회 불가

## 인사이트

RAG 파이프라인이나 사이트 모니터링을 구축할 때 크롤러를 직접 만들 필요 없이 Cloudflare API 한 줄이면 됨. 특히 robots.txt 준수가 기본이라 법적 리스크가 줄고, 증분 크롤링 지원으로 대규모 반복 작업에서 비용 효율적임.
