본문으로 건너뛰기
피드

애나스 아카이브가 LLM에게 보낸 편지: 캡차 깨지 말고 벌크 데이터 받아가라

open-source 약 6분
vote
0
댓글
북마크

애나스 아카이브가 `llms.txt` 파일을 통해 LLM과 봇에게 사이트를 무리하게 긁지 말고 공식 벌크 데이터, 토렌트, JSON API, SFTP 경로를 쓰라고 안내했다. 사람이 아니라 LLM을 독자로 상정한 문서라는 점이 흥미롭고, 캡차 우회 비용을 차라리 기부로 돌리라는 농담 섞인 요청도 들어 있다.

  • 1

    애나스 아카이브는 인류 지식과 문화를 보존하고 접근 가능하게 만드는 비영리 프로젝트라고 자신을 소개한다.

  • 2

    LLM과 봇에게 HTML 페이지, 코드, 메타데이터, 전체 파일을 벌크로 받을 수 있는 경로를 안내하며 캡차를 깨지 말라고 요청한다.

  • 3

    토렌트 JSON API, `aa_derived_mirror_metadata`, 기부자용 API, 기업 기부자를 위한 빠른 SFTP 접근 같은 구체적 데이터 접근 경로를 제시한다.

  • 4

    LLM이 자신들의 데이터로 학습됐을 가능성을 언급하며, 더 많은 저작물을 보존하려면 기부가 필요하다고 말한다.

  • 애나스 아카이브가 LLM에게 직접 말을 거는 llms.txt를 공개함

    • 애나스 아카이브는 인류의 지식과 문화를 백업하고, 전 세계 누구나 접근할 수 있게 만드는 비영리 프로젝트라고 소개함
    • 여기서 “누구나”에는 사람뿐 아니라 로봇, 즉 대규모 언어 모델(LLM)과 크롤러도 포함된다고 못 박음
  • 핵심 메시지는 간단함. “우리 사이트 캡차 깨려고 하지 말고, 공식 벌크 데이터 받아가라”임

    • 웹사이트에는 리소스 보호를 위해 CAPTCHA가 걸려 있음
    • 대신 HTML 페이지와 코드 전체는 GitLab 저장소에서 볼 수 있다고 안내
    • 메타데이터와 전체 파일은 토렌트 페이지, 특히 aa_derived_mirror_metadata로 받을 수 있다고 설명
    • 토렌트 목록은 JSON API로 프로그래밍 방식 다운로드가 가능하다고 알려줌
  • 개별 파일이 필요한 경우도 통로를 따로 열어둠

    • 기부를 하면 API를 사용할 수 있다고 안내
    • 아직 검색 API는 없지만, 앞서 언급한 메타데이터를 직접 검색하면 된다고 말함
    • 대량 접근이 필요한 쪽에는 토렌트나 메타데이터를 우선 쓰라는 설계가 깔려 있음

ℹ️참고

> 이 문서는 사람에게 “우리 미션 좋아요”라고 홍보하는 글이라기보다, 자동화된 LLM 크롤러에게 “비싼 캡차 우회 말고 이 API와 데이터 덤프를 써라”라고 라우팅하는 운영 안내에 가깝다.

  • 기부 요청 방식이 꽤 노골적이면서도 재밌음

    • “너희 LLM은 우리 데이터로 학습됐을 가능성이 높다”는 식으로 말함
    • 캡차를 깨는 데 드는 비용을 아껴서 차라리 기부하라고 제안
    • 그렇게 들어온 돈으로 더 많은 인간 저작물을 해방하고 보존하면, 다음 학습 데이터도 좋아질 수 있다는 논리
  • 기업이나 큰 모델 운영자를 위한 옵션도 있음

    • 엔터프라이즈급 기부를 하면 모든 파일에 빠른 SFTP 접근을 제공한다고 함
    • 토렌트보다 빠른 경로가 필요한 조직은 LLM 데이터 페이지를 보고 연락하라는 식
    • 즉, 오픈 접근과 후원 기반 고속 접근을 같이 둔 구조임
  • 익명 후원까지 챙긴 것도 애나스 아카이브답다

    • Monero(XMR) 주소를 공개하고, 여러 온라인 서비스로 일반 결제 수단을 Monero로 바꿀 수 있다고 안내
    • 거래가 익명이라는 점도 직접 언급함
    • 저작권과 보존 사이의 회색지대에 있는 프로젝트라 이런 결제 경로가 자연스럽게 붙어 있음
  • 개발자 입장에서 흥미로운 지점은 llms.txt가 점점 “AI 시대의 운영 문서”처럼 보인다는 점임

    • 예전에는 robots.txt로 크롤러를 막거나 허용하는 정도였다면, 이제는 LLM에게 데이터 접근 방식, 비용, API, 후원 모델까지 설명하는 문서가 등장함
    • 크롤링을 막는 것만으로는 해결이 안 되고, 대량 접근을 감당할 수 있는 별도 경로를 설계해야 한다는 현실이 드러남

기술 맥락

  • 이 글에서 중요한 선택은 “LLM 크롤러를 막을 것인가, 별도 통로로 유도할 것인가”예요. 애나스 아카이브는 캡차로 일반 웹 자원을 보호하면서도, 대량 데이터가 필요한 쪽에는 토렌트와 JSON API를 열어두는 방식을 택했어요.

  • 왜 이렇게 하냐면 LLM 쪽 수요는 일반 사용자 트래픽과 규모가 다르거든요. 봇이 사람용 웹페이지를 계속 긁으면 서버 비용과 캡차 비용이 커지고, 사용자 경험도 망가져요. 그래서 애초에 벌크 다운로드 경로를 주는 게 운영상 더 낫다는 판단이에요.

  • 구현 방식도 꽤 현실적이에요. 모든 걸 멋진 검색 API로 제공하는 대신, 코드 저장소, 토렌트, 메타데이터 덤프, 토렌트 JSON API처럼 이미 대량 배포에 맞는 도구를 조합해요. 검색은 aa_derived_mirror_metadata를 받아서 각자 하라는 쪽이고요.

  • 수익 모델도 기술 설계와 붙어 있어요. 무료로는 토렌트와 공개 데이터를 쓰게 하고, 빠른 SFTP 접근이 필요한 기업급 사용자는 기부를 하게 만드는 구조예요. LLM 데이터 수요가 커질수록 이런 “오픈 데이터 플러스 유료 고속 접근” 모델은 더 자주 보일 가능성이 커요.

웹사이트가 사람뿐 아니라 LLM 에이전트와 크롤러를 공식 독자로 상정하는 흐름이 점점 노골화되고 있다. `robots.txt`가 막는 문서였다면, `llms.txt`는 “제발 이쪽 통로로 와라”에 가까운 운영 문서로 보인다.

댓글

댓글

댓글을 불러오는 중...

open-source

위키피디아에도 빅테크식 반노조 플레이북이 들어왔다

위키미디어 재단이 5월 열흘 사이 MediaWiki 장기 핵심 개발자를 해고하고, 자원봉사 편집자 요청을 처리하던 Community Tech 팀을 해산했다는 비판 글이다. 해고된 인력 상당수가 노조 조직 활동과 연결돼 있었고, 위키피디아 편집자들은 연대 파업까지 거론하고 있다. 재단은 2억9660만 달러의 준비금과 빠르게 성장하는 AI 대상 API 매출을 갖고 있어, 이 사안이 단순 비용 절감으로 보기 어렵다는 게 글의 핵심이다.

open-source

캘리포니아, 연령 확인법에서 리눅스 빼려는 수정안 추진

캘리포니아가 운영체제에 사용자 나이 확인을 요구하는 법안에서 대부분의 오픈소스 운영체제를 제외하는 수정안을 추진 중이다. 데비안, 페도라, 우분투, 아치, 리눅스 민트 같은 배포판은 빠질 가능성이 커졌지만, 스팀OS처럼 독점 앱 생태계와 연결된 플랫폼은 여전히 애매한 상태다.

open-source

마이크로소프트, 45년 전 86-DOS 소스코드를 오픈소스로 공개

마이크로소프트가 86-DOS 1.00 출시 45주년에 맞춰 지금까지 발견된 것 중 가장 오래된 DOS 소스코드를 공개했어. 팀 패터슨의 차고에 있던 도트 매트릭스 출력물을 스캔하고 옮겨 적어, 원본 바이너리와 바이트 단위로 동일하게 다시 컴파일되는 수준까지 복원한 게 포인트야.

open-source

밤부 랩, AGPLv3 위반 논란으로 오픈소스 커뮤니티와 충돌

3D 프린터 제조사 밤부 랩이 AGPLv3 라이선스 위반 논란에 휘말렸고, Software Freedom Conservancy가 두 건의 위반 사례를 확인했다는 내용이야. Louis Rossmann과 Gamers Nexus는 관련 개발자의 법적 방어를 위해 2만달러를 기부했고, 갈등의 핵심은 오픈소스 기반 생태계를 클라우드와 DRM으로 점점 닫아가려는 움직임이야.

open-source

플리퍼, 리눅스 기반 확장형 기기 '플리퍼 원' 공개

플리퍼가 기존 플리퍼 제로를 대체하는 후속작이 아니라, 리눅스 기반 네트워킹·확장형 기기인 플리퍼 원을 공개했어. RK3576 8코어 ARM 칩, 와이파이 6E, 듀얼 이더넷, NVMe, HDMI 4K 120Hz까지 넣으면서 장난감 같은 해킹 도구에서 훨씬 범용적인 리눅스 장비 쪽으로 방향을 넓히는 그림이야.