본문으로 건너뛰기
피드

Cloudflare, API 한 번으로 웹사이트 전체를 크롤링하는 /crawl 엔드포인트 오픈 베타 출시

backend 약 3분

Cloudflare Browser Rendering에 /crawl 엔드포인트가 오픈 베타로 추가됨. 시작 URL 하나로 전체 사이트를 크롤링하고 HTML, Markdown, JSON으로 반환하며, robots.txt를 준수하는 비동기 크롤링 API.

  • 1

    시작 URL 하나로 전체 사이트 크롤링, HTML/Markdown/구조화된 JSON 포맷으로 반환

  • 2

    robots.txt와 AI Crawl Control을 기본 준수하는 signed-agent

  • 3

    증분 크롤링(modifiedSince, maxAge)으로 반복 크롤링 비용 절감 가능

  • 4

    정적 모드(render: false)로 브라우저 없이 빠른 크롤링 지원

  • 5

    Workers Free와 Paid 플랜 모두에서 사용 가능, Cloudflare 봇 감지는 우회 불가

  • Cloudflare Browser Rendering에 새로운 /crawl 엔드포인트가 오픈 베타로 추가됨 — 시작 URL 하나만 넘기면 전체 사이트를 크롤링해줌
  • 페이지를 자동으로 발견하고, 헤드리스 브라우저에서 렌더링한 뒤 HTML, Markdown, 구조화된 JSON 등 다양한 포맷으로 반환함
  • robots.txt와 AI Crawl Control을 기본으로 준수하는 signed-agent라서 사이트 규칙 준수가 쉬움
  • 크롤 작업은 비동기로 실행됨 — URL 제출하면 job ID를 받고, 처리 완료 후 결과를 가져가는 방식

주요 기능

  • 크롤 범위 제어: depth, 페이지 수 제한, 와일드카드 패턴으로 포함/제외 URL 경로 설정 가능
  • 자동 페이지 발견: sitemap, 페이지 내 링크, 또는 둘 다로 URL 탐색
  • 증분 크롤링: modifiedSince, maxAge 파라미터로 변경되지 않은 페이지를 건너뛰어 반복 크롤링 비용 절감
  • 정적 모드: render: false로 브라우저 없이 정적 HTML만 가져오는 빠른 크롤링 지원
  • crawl-delay 포함 robots.txt 디렉티브 준수, 봇으로 자체 식별함

참고사항

  • Workers Free와 Paid 플랜 모두에서 사용 가능
  • Cloudflare 봇 감지나 캡차를 우회할 수 없음
  • RAG 파이프라인 구축, 모델 학습, 사이트 콘텐츠 모니터링 등에 활용 가능

RAG 파이프라인이나 사이트 모니터링을 구축할 때 크롤러를 직접 만들 필요 없이 Cloudflare API 한 줄이면 됨. 특히 robots.txt 준수가 기본이라 법적 리스크가 줄고, 증분 크롤링 지원으로 대규모 반복 작업에서 비용 효율적임.

댓글

댓글

댓글을 불러오는 중...

backend

Cloudflare가 잡아낸 QUIC CUBIC 버그, ‘idle’ 한 줄 오판이 다운로드를 죽였다

Cloudflare의 QUIC 구현체 quiche에서 CUBIC 혼잡 제어가 최소 윈도우에 갇혀 회복하지 못하는 버그가 발견됐다. Linux 커널의 idle 최적화를 QUIC에 옮기는 과정에서 TCP와 QUIC의 이벤트 타이밍 차이를 놓쳤고, 결국 ACK 시점을 기준으로 idle 시간을 재도록 고쳐 100% 테스트 통과를 회복했다.

backend

삼성전자가 반도체 개발 조직에 오라클 자바를 공식 채택한 이유

삼성전자 DS 부문이 글로벌 반도체 개발 환경에 오라클 자바 SE 유니버설 서브스크립션을 공식 채택했다. 서로 다른 자바 배포판과 버전이 섞이면서 생길 수 있는 보안, 컴플라이언스, 라이선스 리스크를 줄이고 개발 환경을 표준화하려는 결정이다.

backend

네이버클라우드, 트래픽 따라 알아서 줄고 느는 서버리스 데이터베이스 출시

네이버클라우드가 사용량에 따라 CPU, 메모리, 스토리지를 자동 조절하는 완전관리형 서버리스 데이터베이스 서비스를 내놨다. 기존 가상머신 기반 관리형 데이터베이스처럼 피크 트래픽에 맞춰 서버를 과하게 잡아두는 방식에서 벗어나, 사용량 기반 과금과 오토스케일링으로 비용 낭비를 줄이겠다는 방향이다.

backend

네이버클라우드, 사용량 따라 늘고 줄어드는 서버리스 데이터베이스 출시

네이버클라우드가 완전관리형 서버리스 데이터베이스 서비스인 Cloud DB Serverless를 출시했다. VM 기반 관리형 데이터베이스의 고정 비용과 과잉 프로비저닝 문제를 줄이고, 트래픽에 따라 CPU·메모리·스토리지를 자동 조절하는 구조를 내세운다.

backend

네이버클라우드, 사용량 따라 자동 확장되는 서버리스 데이터베이스 출시

네이버클라우드가 사용량에 따라 컴퓨팅 자원을 자동 조절하는 서버리스 기반 클라우드 데이터베이스를 출시했음. 기존 가상머신 기반 관리형 데이터베이스의 고정 비용과 운영 부담을 줄이고, 국내 데이터 규제 요구까지 맞추겠다는 전략임.