본문으로 건너뛰기
0
r/jeffnews HN 약 3분

Cloudflare, API 한 번으로 웹사이트 전체를 크롤링하는 /crawl 엔드포인트 오픈 베타 출시

backend

요약

Cloudflare Browser Rendering에 /crawl 엔드포인트가 오픈 베타로 추가됨. 시작 URL 하나로 전체 사이트를 크롤링하고 HTML, Markdown, JSON으로 반환하며, robots.txt를 준수하는 비동기 크롤링 API.

기사 전체 정리

Cloudflare, API 한 번으로 웹사이트 전체를 크롤링하는 /crawl 엔드포인트 오픈 베타 출시

  • Cloudflare Browser Rendering에 새로운 /crawl 엔드포인트가 오픈 베타로 추가됨 — 시작 URL 하나만 넘기면 전체 사이트를 크롤링해줌
  • 페이지를 자동으로 발견하고, 헤드리스 브라우저에서 렌더링한 뒤 HTML, Markdown, 구조화된 JSON 등 다양한 포맷으로 반환함
  • robots.txt와 AI Crawl Control을 기본으로 준수하는 signed-agent라서 사이트 규칙 준수가 쉬움
  • 크롤 작업은 비동기로 실행됨 — URL 제출하면 job ID를 받고, 처리 완료 후 결과를 가져가는 방식

주요 기능

  • 크롤 범위 제어: depth, 페이지 수 제한, 와일드카드 패턴으로 포함/제외 URL 경로 설정 가능
  • 자동 페이지 발견: sitemap, 페이지 내 링크, 또는 둘 다로 URL 탐색
  • 증분 크롤링: modifiedSince, maxAge 파라미터로 변경되지 않은 페이지를 건너뛰어 반복 크롤링 비용 절감
  • 정적 모드: render: false로 브라우저 없이 정적 HTML만 가져오는 빠른 크롤링 지원
  • crawl-delay 포함 robots.txt 디렉티브 준수, 봇으로 자체 식별함

참고사항

  • Workers Free와 Paid 플랜 모두에서 사용 가능
  • Cloudflare 봇 감지나 캡차를 우회할 수 없음
  • RAG 파이프라인 구축, 모델 학습, 사이트 콘텐츠 모니터링 등에 활용 가능

핵심 포인트

  • 시작 URL 하나로 전체 사이트 크롤링, HTML/Markdown/구조화된 JSON 포맷으로 반환
  • robots.txt와 AI Crawl Control을 기본 준수하는 signed-agent
  • 증분 크롤링(modifiedSince, maxAge)으로 반복 크롤링 비용 절감 가능
  • 정적 모드(render: false)로 브라우저 없이 빠른 크롤링 지원
  • Workers Free와 Paid 플랜 모두에서 사용 가능, Cloudflare 봇 감지는 우회 불가

인사이트

RAG 파이프라인이나 사이트 모니터링을 구축할 때 크롤러를 직접 만들 필요 없이 Cloudflare API 한 줄이면 됨. 특히 robots.txt 준수가 기본이라 법적 리스크가 줄고, 증분 크롤링 지원으로 대규모 반복 작업에서 비용 효율적임.

댓글

댓글

댓글을 불러오는 중...

backend

Redis 8.0 출시 — I/O 스레딩 갈아엎고 처리량 3배, 2.1M ops/sec 달성

Redis 8.0이 I/O 스레딩 모델을 완전히 재설계해서 16코어 기준 2.1M ops/sec를 달성함 (7.4 대비 3배). Hash field expiration, Vector search HNSW, Client-side caching v2, Redis Functions 2.0 async 실행 등 굵직한 기능이 추가되고, jemalloc 통합으로 메모리 fragmentation도 25% 줄어듦.

backend

dial9 — Tokio 런타임의 블랙박스 레코더, 프로덕션에서 5% 미만 오버헤드로 이벤트 타임라인 기록

Tokio 런타임의 개별 이벤트를 타임라인 로그로 기록하는 텔레메트리 도구 dial9이 공개됨. 커널 스케줄링 딜레이, fd_table 컨텐션 등 집계 메트릭으로는 찾을 수 없는 프로덕션 성능 문제를 실제로 해결한 사례를 소개.

backend

dbt를 10년 늦게 시작한 후기 (DuckDB 에디션)

dbt를 10년 늦게 발견한 저자가 DuckDB와 조합해 UK 홍수 모니터링 API 데이터 파이프라인을 구축한 경험기. source 분리, staging 모델, Jinja 매크로, 테스트, 자동 문서화, Dagster 오케스트레이션까지 전체 과정을 다룸.

backend

HN은 왜 이렇게 Rust에 집착하는 걸까?

HN 커뮤니티가 Rust에 열광하는 이유를 분석한 글. 메모리 안전성·동시성·성능·툴체인을 모두 갖춘 유일한 언어라는 점, 그리고 C++의 카오스와 대비되는 Cargo의 통합된 개발 경험이 핵심 요인으로 꼽힘.

backend

LittleHorse 1.0 — 비즈니스 로직을 코드로 표현하는 마이크로서비스 오케스트레이션 엔진

Apache Kafka 기반의 고성능 워크플로우 오케스트레이션 엔진 LittleHorse가 1.0을 출시함. 비즈니스 프로세스를 코드로 직접 표현하는 'Business-as-Code' 방식으로 마이크로서비스 간 조율, 재시도, 타임아웃, 분산 추적 등을 엔진 레벨에서 처리해줌.