---
title: "미스트랄 OCR 4 공개, 문서 추출을 RAG 파이프라인용 구조화 데이터로 밀어붙임"
published: 2026-06-23T14:03:19.000Z
canonical: https://jeff.news/article/4296
---
# 미스트랄 OCR 4 공개, 문서 추출을 RAG 파이프라인용 구조화 데이터로 밀어붙임

미스트랄이 OCR 4를 공개했다. 단순 텍스트 추출을 넘어 바운딩 박스, 블록 타입 분류, 단어 단위 신뢰도 점수를 함께 반환해 RAG, 엔터프라이즈 검색, 문서 자동화 파이프라인에 바로 넣기 좋은 구조화 출력을 제공한다.

## OCR 4가 새로 들고 온 것

- 미스트랄이 OCR 4를 공개했는데, 방향은 “텍스트 추출기”보다 “문서 이해 파이프라인 입력기”에 가까움
  - PDF, DOC, PPT, OpenDocument 같은 엔터프라이즈 문서 포맷을 받아서 구조화된 결과를 반환함
  - 170개 언어, 10개 언어 그룹을 지원하고, 저자원 언어와 특수 언어에서도 성능 개선을 강조함
  - 단일 컨테이너로 배포할 수 있어서 문서를 외부로 빼기 어려운 기업은 셀프호스팅 옵션을 쓸 수 있음

- 이번 버전의 핵심은 글자만 뽑는 게 아니라 “문서의 구조”를 같이 뽑는다는 점임
  - 각 블록에 바운딩 박스(bounding box)가 붙어서 문서 안 위치를 알 수 있음
  - 제목, 표, 수식, 서명 같은 typed block classification을 제공함
  - 페이지 단위와 단어 단위 inline confidence score도 같이 반환해서, 어디를 믿고 어디를 사람에게 넘길지 판단할 수 있음

> [!IMPORTANT]
> OCR 4는 추출 텍스트, 바운딩 박스, 블록 타입, 신뢰도 점수를 항상 같이 돌려준다. RAG나 문서 자동화에서 “근거가 문서 어디에 있었는지”를 보여줘야 하는 팀에는 이게 꽤 큰 차이다.

## 벤치마크와 숫자

- 미스트랄은 OCR 4가 테스트한 주요 OCR·문서 AI 시스템보다 인간 평가에서 더 선호됐다고 주장함
  - 12개 이상 언어의 실제 산업 문서 600개 이상을 모아 독립 평가자가 블라인드로 비교함
  - 평균 win rate는 72%라고 제시함
  - 자동 벤치마크보다 실제 문서에서 사람이 보는 품질을 더 중시했다는 설명임

- 공개 벤치마크에서도 강한 숫자를 내세움
  - OlmOCRBench 전체 점수 85.20으로 테스트한 모델 중 1위라고 밝힘
  - OmniDocBench 점수는 93.07이라고 공개함
  - 내부 Crawl Multilingual 평가에서는 0.98을 기록했고, 영어, 서유럽, 동유럽, 중동, 중국어, 동아시아, 동남아시아, 특수 언어 그룹 전반에서 앞섰다고 함

- 다만 미스트랄도 벤치마크 숫자를 절대값으로 보지 말라고 선을 그음
  - 정답 데이터 자체에 오타나 누락이 있는 경우가 있음
  - 렌더링하면 같은 수식인데 LaTeX 문자열이 다르면 오답 처리될 수 있음
  - 다단 컬럼 문서에서 읽기 순서나 하이픈 처리 때문에 맞는 출력이 틀린 것으로 계산될 수 있음
  - 그래서 aggregate score는 방향성 지표로 보라는 입장임

## 어디에 쓰라는 건가

- 가장 직접적인 용도는 RAG와 엔터프라이즈 검색임
  - 분류된 블록을 semantic chunking 단위로 쓰면 검색 품질을 높이기 좋음
  - Search Toolkit 공개 프리뷰와도 연결돼서 ingestion, retrieval, evaluation 워크플로우에 넣을 수 있음
  - 출처 기반 답변(source-grounded answer)을 만들 때 바운딩 박스와 블록 타입이 근거 표시를 도와줌

- 에이전트 워크플로우에서도 문서 구조가 꽤 중요해짐
  - 폼 작성, 송장 처리, 컴플라이언스 체크 같은 작업은 “문서에 뭐라고 적혔나”뿐 아니라 “어느 필드가 어떤 역할인가”가 필요함
  - confidence score가 있으면 낮은 확신의 항목만 사람 검수로 넘기는 human-in-the-loop 파이프라인을 만들 수 있음
  - 민감정보 가림(redaction)이나 규제 대응 프로세스에서도 위치 정보가 바로 써먹기 좋음

```mermaid
sequenceDiagram
    participant 문서
    participant OCR4
    participant 검색파이프라인
    participant 언어모델
    participant 검수자
    문서->>OCR4: PDF/DOC/PPT 입력
    OCR4->>검색파이프라인: 텍스트, 바운딩 박스, 블록 타입, 신뢰도 반환
    검색파이프라인->>언어모델: 근거 포함 검색 결과 전달
    언어모델->>검수자: 출처 기반 답변 또는 구조화 결과 제시
    검수자->>검색파이프라인: 낮은 신뢰도 항목만 확인
```

## 가격과 선택지

- API 가격은 꽤 명확하게 제시됨
  - OCR 4 API는 1,000페이지당 4달러임
  - Batch API를 쓰면 50% 할인돼서 1,000페이지당 2달러임
  - Document AI는 1,000페이지당 5달러임

- 미스트랄이 제시한 선택 기준은 단순함
  - 원문 추출 결과, 바운딩 박스, 블록 타입, 신뢰도 점수를 직접 다루고 싶으면 OCR 4 API를 쓰면 됨
  - 특정 JSON 스키마로 결과를 받고 싶거나, 이미지 주석을 구조화하거나, 커스텀 프롬프트로 문서 내용을 재해석하고 싶으면 Document AI 파라미터를 얹는 방식임
  - Document AI는 OCR 결과 위에 구조화 계층을 추가하는 개념이지, 완전히 다른 엔진을 쓰는 구조는 아님

- 배포 채널도 엔터프라이즈 쪽을 노리고 있음
  - Mistral Studio, Amazon SageMaker, Microsoft Foundry에서 사용할 수 있음
  - Snowflake Parse Document 지원도 예정돼 있음
  - 엄격한 데이터 거버넌스가 필요한 조직에는 셀프호스팅 옵션을 제공함

> [!WARNING]
> 미스트랄은 OCR 4를 의학 진단, 법률 판단, 고위험 금융 의사결정, 안전 필수 시스템, 실시간 처리, 오디오·비디오 입력에는 쓰지 말라고 명시한다.

---

## 기술 맥락

- OCR 4의 기술적 선택은 “텍스트만 뽑지 말고 문서 구조까지 API 응답으로 고정하자”는 쪽이에요. 왜냐하면 RAG나 엔터프라이즈 검색에서는 문장을 뽑는 것만으로는 부족하고, 그 문장이 표인지 제목인지 본문인지 알아야 검색 단위가 좋아지거든요.

- 바운딩 박스가 중요한 이유는 답변의 신뢰성과 연결돼요. 모델이 어떤 문장을 근거로 답했는지 화면에서 하이라이트할 수 있어야 사용자가 검증할 수 있고, 민감정보 가림이나 수동 검수도 위치 정보가 있어야 자동화하기 쉬워요.

- confidence score는 운영 비용과 연결돼요. 모든 추출 결과를 사람이 다시 보면 OCR을 쓰는 의미가 줄어드니까, 낮은 신뢰도 항목만 검수 큐로 보내는 식의 파이프라인을 만들 수 있어요.

- API와 Document AI를 나눈 것도 실무적인 선택이에요. 개발팀이 후처리 로직을 직접 짤 수 있으면 원시 OCR 출력을 쓰는 게 유연하고, 업무팀이 바로 JSON 필드를 원하면 Document AI 계층을 얹는 게 빠르거든요.

- 셀프호스팅을 단일 컨테이너로 내세운 건 문서 데이터의 성격 때문이에요. 계약서, 의료 문서, 금융 문서처럼 외부 API로 보내기 어려운 데이터가 많아서, 성능만큼이나 데이터 주권과 컴플라이언스가 구매 결정에 영향을 줘요.

## 핵심 포인트

- OCR 4는 170개 언어와 10개 언어 그룹을 지원하고, 단일 컨테이너로 셀프호스팅할 수 있다.
- 공개 벤치마크 OlmOCRBench에서 85.20점을 기록했고, 인간 평가에서는 평균 72% 선호율을 주장했다.
- API 가격은 1,000페이지당 4달러, Batch API는 2달러, Document AI는 5달러다.

## 인사이트

요즘 OCR은 그냥 글자 뽑는 기능이 아니라 검색, RAG, 에이전트 업무 자동화의 입구가 되고 있다. OCR 4가 강조하는 바운딩 박스와 신뢰도 점수는 예쁘게 보이는 부가 기능이 아니라, 출처 표시와 검수 워크플로우를 만들 때 바로 돈값을 하는 정보다.