본문으로 건너뛰기
피드

Cloudflare, API 한 번으로 웹사이트 전체를 크롤링하는 /crawl 엔드포인트 오픈 베타 출시

backend 약 3분
vote
0
댓글
북마크

Cloudflare Browser Rendering에 /crawl 엔드포인트가 오픈 베타로 추가됨. 시작 URL 하나로 전체 사이트를 크롤링하고 HTML, Markdown, JSON으로 반환하며, robots.txt를 준수하는 비동기 크롤링 API.

  • 1

    시작 URL 하나로 전체 사이트 크롤링, HTML/Markdown/구조화된 JSON 포맷으로 반환

  • 2

    robots.txt와 AI Crawl Control을 기본 준수하는 signed-agent

  • 3

    증분 크롤링(modifiedSince, maxAge)으로 반복 크롤링 비용 절감 가능

  • 4

    정적 모드(render: false)로 브라우저 없이 빠른 크롤링 지원

  • 5

    Workers Free와 Paid 플랜 모두에서 사용 가능, Cloudflare 봇 감지는 우회 불가

  • Cloudflare Browser Rendering에 새로운 /crawl 엔드포인트가 오픈 베타로 추가됨 — 시작 URL 하나만 넘기면 전체 사이트를 크롤링해줌
  • 페이지를 자동으로 발견하고, 헤드리스 브라우저에서 렌더링한 뒤 HTML, Markdown, 구조화된 JSON 등 다양한 포맷으로 반환함
  • robots.txt와 AI Crawl Control을 기본으로 준수하는 signed-agent라서 사이트 규칙 준수가 쉬움
  • 크롤 작업은 비동기로 실행됨 — URL 제출하면 job ID를 받고, 처리 완료 후 결과를 가져가는 방식

주요 기능

  • 크롤 범위 제어: depth, 페이지 수 제한, 와일드카드 패턴으로 포함/제외 URL 경로 설정 가능
  • 자동 페이지 발견: sitemap, 페이지 내 링크, 또는 둘 다로 URL 탐색
  • 증분 크롤링: modifiedSince, maxAge 파라미터로 변경되지 않은 페이지를 건너뛰어 반복 크롤링 비용 절감
  • 정적 모드: render: false로 브라우저 없이 정적 HTML만 가져오는 빠른 크롤링 지원
  • crawl-delay 포함 robots.txt 디렉티브 준수, 봇으로 자체 식별함

참고사항

  • Workers Free와 Paid 플랜 모두에서 사용 가능
  • Cloudflare 봇 감지나 캡차를 우회할 수 없음
  • RAG 파이프라인 구축, 모델 학습, 사이트 콘텐츠 모니터링 등에 활용 가능

RAG 파이프라인이나 사이트 모니터링을 구축할 때 크롤러를 직접 만들 필요 없이 Cloudflare API 한 줄이면 됨. 특히 robots.txt 준수가 기본이라 법적 리스크가 줄고, 증분 크롤링 지원으로 대규모 반복 작업에서 비용 효율적임.

댓글

댓글

댓글을 불러오는 중...

backend

잘못된 추상화보다 중복이 낫다는 샌디 메츠의 고전 조언

샌디 메츠는 중복을 없애려다 잘못된 추상화를 만들면 코드가 조건문과 파라미터로 부풀어 더 위험해진다고 말한다. 이미 틀어진 추상화는 억지로 보존하지 말고, 다시 호출부에 인라인해서 중복을 되살린 뒤 현재 요구사항에 맞는 새 구조를 찾는 편이 빠르다는 주장이다.

backend

리눅스 커널, 6년·360개 넘는 패치 끝에 strncpy 제거

리눅스 커널이 오랫동안 버그의 원인이던 strncpy API 사용을 Linux 7.2에서 제거했어. NUL 종료 동작이 직관적이지 않고 불필요한 zero-fill로 성능 문제도 있던 API를 6년 동안 약 362개 커밋으로 걷어낸 작업임.

backend

덕디비는 왜 빠를까: 서버 없는 분석 엔진의 내부 구조 뜯어보기

DuckDB가 단일 바이너리, 인프로세스 실행, 컬럼형 저장, 최적화 패스, Parquet 푸시다운으로 빠른 분석 쿼리를 처리하는 방식을 깊게 설명한 글이다. 6GB Parquet 파일을 노트북에서 바로 SQL로 읽는 경험 뒤에 어떤 설계가 깔려 있는지 따라간다.

backend

피지독, 포스트그레스를 수평 확장시키겠다고 550만 달러 투자 유치

피지독은 포스트그레스 앞단에 프록시를 두고 샤딩과 라우팅을 처리해 수평 확장을 가능하게 하겠다는 오픈소스 프로젝트다. 이미 프로덕션에서 초당 200만 건이 넘는 쿼리를 처리하고, 확인된 규모만 20테라바이트 이상을 샤딩했다고 밝히며 550만 달러 투자를 공개했다.

backend

펜타시스템, EDB 포스트그레SQL로 국내 엔터프라이즈 DB 전환 시장 공략

펜타시스템테크놀러지가 EDB와 파트너 계약을 맺고 국내에 EDB 포스트그레SQL 기반 데이터 플랫폼을 공급한다. 기존 상용 DBMS 정책 변화로 비용 부담이 커진 기업들을 겨냥해, 오픈소스 기반 엔터프라이즈 데이터 플랫폼 전환 수요를 잡겠다는 전략이다. 금융, 공공, 제조, 유통, 클라우드, AI 데이터 분석 환경까지 적용 범위를 넓히려는 움직임이다.