0
Cloudflare, API 한 번으로 웹사이트 전체를 크롤링하는 /crawl 엔드포인트 오픈 베타 출시
backend
요약
기사 전체 정리
Cloudflare, API 한 번으로 웹사이트 전체를 크롤링하는 /crawl 엔드포인트 오픈 베타 출시
- Cloudflare Browser Rendering에 새로운
/crawl엔드포인트가 오픈 베타로 추가됨 — 시작 URL 하나만 넘기면 전체 사이트를 크롤링해줌 - 페이지를 자동으로 발견하고, 헤드리스 브라우저에서 렌더링한 뒤 HTML, Markdown, 구조화된 JSON 등 다양한 포맷으로 반환함
- robots.txt와 AI Crawl Control을 기본으로 준수하는 signed-agent라서 사이트 규칙 준수가 쉬움
- 크롤 작업은 비동기로 실행됨 — URL 제출하면 job ID를 받고, 처리 완료 후 결과를 가져가는 방식
주요 기능
- 크롤 범위 제어: depth, 페이지 수 제한, 와일드카드 패턴으로 포함/제외 URL 경로 설정 가능
- 자동 페이지 발견: sitemap, 페이지 내 링크, 또는 둘 다로 URL 탐색
- 증분 크롤링:
modifiedSince,maxAge파라미터로 변경되지 않은 페이지를 건너뛰어 반복 크롤링 비용 절감 - 정적 모드:
render: false로 브라우저 없이 정적 HTML만 가져오는 빠른 크롤링 지원 - crawl-delay 포함 robots.txt 디렉티브 준수, 봇으로 자체 식별함
참고사항
- Workers Free와 Paid 플랜 모두에서 사용 가능
- Cloudflare 봇 감지나 캡차를 우회할 수 없음
- RAG 파이프라인 구축, 모델 학습, 사이트 콘텐츠 모니터링 등에 활용 가능
댓글
댓글
댓글을 불러오는 중...