바이두, 긴 문서 한 번에 파싱하는 ‘Unlimited-OCR’ 공개
바이두가 Deepseek-OCR 계열 아이디어를 확장한 문서 파싱 모델 Unlimited-OCR을 공개했어. 단일 이미지뿐 아니라 여러 페이지 이미지와 PDF를 32768 토큰 컨텍스트로 처리하고, Hugging Face Transformers와 SGLang 기반 OpenAI 호환 API 예제까지 제공하는 실전형 레포에 가까움.
- 1
Unlimited-OCR은 긴 문서와 다중 페이지 파싱을 겨냥한 OCR 모델임
- 2
단일 이미지는 gundam/base 두 가지 설정을 지원하고, 멀티 페이지와 PDF는 base 설정을 사용함
- 3
추론 예제는 Python 3.12.3, CUDA 12.9, torch 2.10.0, transformers 4.57.1 기준으로 안내됨
- 4
SGLang 서버를 띄워 OpenAI 호환 API 형태로 스트리밍 요청을 보낼 수 있음
- 5
반복 출력을 막기 위해 35-gram 기반 커스텀 로짓 프로세서를 사용함
OCR은 아직도 사내 문서 자동화, 계약서 파싱, 레거시 PDF 처리에서 꽤 현실적인 병목임. 모델 성능 얘기보다도 PDF를 이미지로 바꾸고, 서버로 띄우고, 배치 추론까지 연결한 예제가 있다는 점이 개발자한테 바로 쓸 만한 포인트임.
관련 기사
3B 모델이 대형 추론 모델급 성능? VibeThinker-3B 논문 공개
VibeThinker-3B는 30억 파라미터짜리 작은 dense 모델로도 검증 가능한 추론(verifiable reasoning)을 어디까지 밀어붙일 수 있는지 실험한 기술 보고서야. 커리큘럼 기반 지도 미세조정, 다중 도메인 강화학습, 오프라인 자기 증류를 조합해 AIME26 94.3점, LiveCodeBench v6 Pass@1 80.2 같은 꽤 센 숫자를 냈다고 주장함.
GLM-5.2, 744B 오픈 모델을 로컬에서 돌리는 법
Z.ai의 새 오픈 모델 GLM-5.2를 Unsloth Dynamic GGUF로 로컬 실행할 수 있게 됐다는 가이드다. 744B 파라미터, 40B 활성 파라미터, 100만 토큰 컨텍스트를 가진 모델을 1비트·2비트 양자화로 줄여 Mac이나 대용량 RAM 장비에서 돌리는 방법과 성능 손실 해석을 다룬다.
삼성SDS, 공공 AI 박람회서 패브릭스·브리티웍스·AI 데이터센터 전면 배치
삼성SDS가 2026 공공 AI 박람회에서 공공 행정용 AI 에이전트, 모바일 협업 솔루션, AI 클라우드 인프라를 함께 선보였다. 국민 민원 요약·분류, 조달법령 해석, 정부24 AI 검색 같은 사례를 통해 공공 부문 AI 전환 시장을 정조준했다.
카페24는 120개 모델 라우터, 델은 랙당 GPU 144개 서버…국내 AI 인프라 뉴스 몰아보기
카페24가 120여 개 AI 모델을 단일 API로 묶는 LLM 라우터를 내놨고, 델은 엔비디아 베라 루빈 NVL4 기반 슈퍼컴 서버 XE8812를 공개했다. 오픈AI의 기업용 AI는 삼성전자와 서울대 도입 사례로 국내 확산 흐름이 뚜렷해졌고, 신세계I&C는 게임 IP 콘솔 패키지 출시를 예고했다.
브릭섬, 1MW급 NPU 추론 클라우드 ‘네오클라우드’ 하반기 오픈 추진
브릭섬이 NPU 기반 LLM 추론 전용 클라우드 ‘네오클라우드’를 올해 하반기 공식 오픈하겠다고 밝혔다. 1MW 규모로 시작해 6MW, 20MW까지 키우고, 토큰 API와 베어메탈 임대 두 가지 방식으로 제공한다.
댓글
댓글
댓글을 불러오는 중...