본문으로 건너뛰기
피드

바이두, 긴 문서 한 번에 파싱하는 ‘Unlimited-OCR’ 공개

ai-ml 약 7분
vote
0
댓글
북마크

바이두가 Deepseek-OCR 계열 아이디어를 확장한 문서 파싱 모델 Unlimited-OCR을 공개했어. 단일 이미지뿐 아니라 여러 페이지 이미지와 PDF를 32768 토큰 컨텍스트로 처리하고, Hugging Face Transformers와 SGLang 기반 OpenAI 호환 API 예제까지 제공하는 실전형 레포에 가까움.

  • 1

    Unlimited-OCR은 긴 문서와 다중 페이지 파싱을 겨냥한 OCR 모델임

  • 2

    단일 이미지는 gundam/base 두 가지 설정을 지원하고, 멀티 페이지와 PDF는 base 설정을 사용함

  • 3

    추론 예제는 Python 3.12.3, CUDA 12.9, torch 2.10.0, transformers 4.57.1 기준으로 안내됨

  • 4

    SGLang 서버를 띄워 OpenAI 호환 API 형태로 스트리밍 요청을 보낼 수 있음

  • 5

    반복 출력을 막기 위해 35-gram 기반 커스텀 로짓 프로세서를 사용함

  • 바이두가 Unlimited-OCR을 공개함 — 목표는 이름 그대로 긴 문서를 한 번에 파싱하는 OCR임

    • 2026년 6월 22일 공개됐고, 6월 23일에는 논문이 arXiv에 올라왔다는 업데이트가 붙음
    • Deepseek-OCR을 한 단계 더 밀어붙이는 프로젝트라고 설명함
    • 모델은 Hugging Face의 baidu/Unlimited-OCR로 불러오는 예제가 제공됨
  • 이 레포는 단순 데모가 아니라, 로컬 추론부터 API 서버, 배치 처리까지 꽤 실무형으로 정리돼 있음

    • 테스트 환경은 Python 3.12.3, CUDA 12.9 기준
    • 주요 패키지는 torch==2.10.0, torchvision==0.25.0, transformers==4.57.1, Pillow==12.1.1, PyMuPDF==1.27.2.2
    • 모델은 bfloat16으로 로드하고 CUDA에서 실행하는 예제를 제공함
  • 단일 이미지는 두 가지 모드로 처리함

    • gundam 설정은 base_size=1024, image_size=640, crop_mode=True
    • base 설정은 base_size=1024, image_size=1024, crop_mode=False
    • 최대 출력 길이는 max_length=32768로 잡혀 있음
  • 여러 페이지나 PDF는 infer_multi 흐름을 씀

    • 멀티 페이지 입력은 image_files=['page1.png', 'page2.png', 'page3.png']처럼 이미지 배열로 넘김
    • PDF는 PyMuPDF로 각 페이지를 300dpi PNG로 변환한 뒤 OCR에 넣는 방식임
    • 멀티 페이지 파싱에서는 image_size=1024, ngram_window=1024 설정을 사용함

💡

> 사내 PDF 자동화에 붙일 생각이면, PDF 원본을 바로 넣는 게 아니라 페이지 이미지를 만든 뒤 멀티 이미지 추론으로 넘기는 구조를 먼저 봐야 함.

  • SGLang 서버로 띄우는 경로도 제공됨

    • python -m sglang.launch_serverbaidu/Unlimited-OCR 모델을 서빙함
    • --context-length 32768, --attention-backend fa3, --page-size 1, --mem-fraction-static 0.8 같은 옵션이 예시에 들어감
    • 서버는 0.0.0.0:10000에서 OpenAI 호환 API를 받는 형태임
  • API 호출 예제는 이미지 파일을 base64 data URL로 감싸서 보냄

    • 요청은 /v1/chat/completions로 나가고 stream=True를 켬
    • 메시지 content에는 텍스트 프롬프트와 이미지 URL 객체들이 같이 들어감
    • temperature는 0으로 고정해서 OCR 결과의 변동성을 줄임
  • 반복 출력 방지를 꽤 노골적으로 다룸

    • DeepseekOCRNoRepeatNGramLogitProcessor를 커스텀 로짓 프로세서로 사용함
    • ngram_size는 35, 단일 이미지는 window_size=128, 멀티 페이지는 window_size=1024 예제를 둠
    • 긴 문서 OCR에서 같은 문장이나 패턴이 루프처럼 반복되는 문제를 의식한 설계로 보임
  • 배치 추론용 infer.py도 있음

    • 이미지 디렉터리는 --image_dir ./examples/images --output_dir ./outputs --concurrency 8 --image_mode gundam 형태로 실행함
    • PDF도 --pdf ./examples/document.pdf로 넘길 수 있음
    • --model_dir, --gpu, --server_log 같은 운영 옵션도 제공됨

기술 맥락

  • 이 프로젝트의 선택은 “OCR을 단발성 이미지 인식이 아니라 긴 문서 파싱 파이프라인으로 다루자”예요. 그래서 단일 이미지, 여러 페이지 이미지, PDF 변환, 서버 서빙, 배치 추론이 한 흐름 안에 들어가 있어요.

  • PDF를 바로 모델에 던지지 않고 PyMuPDF로 300dpi 이미지로 바꾸는 이유는 모델 입력이 결국 이미지 기반이기 때문이에요. 문서 파싱 모델 입장에서는 페이지 렌더링 품질이 곧 인식 품질이라, DPI와 페이지 분할이 꽤 중요한 전처리예요.

  • SGLang을 붙인 건 운영 형태를 염두에 둔 선택이에요. 연구 코드처럼 함수 호출만 제공하면 앱에 붙이기 어렵지만, OpenAI 호환 API로 띄우면 기존 LLM 호출 코드나 백엔드 워커에서 비교적 쉽게 연결할 수 있거든요.

  • 32768 토큰 컨텍스트와 no-repeat n-gram 설정도 긴 문서 때문에 나온 선택이에요. 출력이 길어질수록 모델이 같은 구절을 반복할 위험이 커지니까, 토큰 생성 단계에서 반복을 억제하는 장치를 둔 거예요.

OCR은 아직도 사내 문서 자동화, 계약서 파싱, 레거시 PDF 처리에서 꽤 현실적인 병목임. 모델 성능 얘기보다도 PDF를 이미지로 바꾸고, 서버로 띄우고, 배치 추론까지 연결한 예제가 있다는 점이 개발자한테 바로 쓸 만한 포인트임.

댓글

댓글

댓글을 불러오는 중...

ai-ml

3B 모델이 대형 추론 모델급 성능? VibeThinker-3B 논문 공개

VibeThinker-3B는 30억 파라미터짜리 작은 dense 모델로도 검증 가능한 추론(verifiable reasoning)을 어디까지 밀어붙일 수 있는지 실험한 기술 보고서야. 커리큘럼 기반 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기 증류를 조합해 AIME26 94.3점, LiveCodeBench v6 Pass@1 80.2 같은 꽤 센 숫자를 냈다고 주장함.

ai-ml

GLM-5.2, 744B 오픈 모델을 로컬에서 돌리는 법

Z.ai의 새 오픈 모델 GLM-5.2를 Unsloth Dynamic GGUF로 로컬 실행할 수 있게 됐다는 가이드다. 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 모델을 1비트·2비트 양자화로 줄여 Mac이나 대용량 RAM 장비에서 돌리는 방법과 성능 손실 해석을 다룬다.

ai-ml

삼성SDS, 공공 AI 박람회서 패브릭스·브리티웍스·AI 데이터센터 전면 배치

삼성SDS가 2026 공공 AI 박람회에서 공공 행정용 AI 에이전트, 모바일 협업 솔루션, AI 클라우드 인프라를 함께 선보였다. 국민 민원 요약·분류, 조달법령 해석, 정부24 AI 검색 같은 사례를 통해 공공 부문 AI 전환 시장을 정조준했다.

ai-ml

카페24는 120개 모델 라우터, 델은 랙당 GPU 144개 서버…국내 AI 인프라 뉴스 몰아보기

카페24가 120여 개 AI 모델을 단일 API로 묶는 LLM 라우터를 내놨고, 델은 엔비디아 베라 루빈 NVL4 기반 슈퍼컴 서버 XE8812를 공개했다. 오픈AI의 기업용 AI는 삼성전자와 서울대 도입 사례로 국내 확산 흐름이 뚜렷해졌고, 신세계I&C는 게임 IP 콘솔 패키지 출시를 예고했다.

ai-ml

브릭섬, 1MW급 NPU 추론 클라우드 ‘네오클라우드’ 하반기 오픈 추진

브릭섬이 NPU 기반 LLM 추론 전용 클라우드 ‘네오클라우드’를 올해 하반기 공식 오픈하겠다고 밝혔다. 1MW 규모로 시작해 6MW, 20MW까지 키우고, 토큰 API와 베어메탈 임대 두 가지 방식으로 제공한다.