본문으로 건너뛰기
피드

미스트랄 OCR 4 공개, 문서 추출을 RAG 파이프라인용 구조화 데이터로 밀어붙임

ai-ml 약 8분
vote
0
댓글
북마크

미스트랄이 OCR 4를 공개했다. 단순 텍스트 추출을 넘어 바운딩 박스, 블록 타입 분류, 단어 단위 신뢰도 점수를 함께 반환해 RAG, 엔터프라이즈 검색, 문서 자동화 파이프라인에 바로 넣기 좋은 구조화 출력을 제공한다.

  • 1

    OCR 4는 170개 언어와 10개 언어 그룹을 지원하고, 단일 컨테이너로 셀프호스팅할 수 있다.

  • 2

    공개 벤치마크 OlmOCRBench에서 85.20점을 기록했고, 인간 평가에서는 평균 72% 선호율을 주장했다.

  • 3

    API 가격은 1,000페이지당 4달러, Batch API는 2달러, Document AI는 5달러다.

OCR 4가 새로 들고 온 것

  • 미스트랄이 OCR 4를 공개했는데, 방향은 “텍스트 추출기”보다 “문서 이해 파이프라인 입력기”에 가까움

    • PDF, DOC, PPT, OpenDocument 같은 엔터프라이즈 문서 포맷을 받아서 구조화된 결과를 반환함
    • 170개 언어, 10개 언어 그룹을 지원하고, 저자원 언어와 특수 언어에서도 성능 개선을 강조함
    • 단일 컨테이너로 배포할 수 있어서 문서를 외부로 빼기 어려운 기업은 셀프호스팅 옵션을 쓸 수 있음
  • 이번 버전의 핵심은 글자만 뽑는 게 아니라 “문서의 구조”를 같이 뽑는다는 점임

    • 각 블록에 바운딩 박스(bounding box)가 붙어서 문서 안 위치를 알 수 있음
    • 제목, 표, 수식, 서명 같은 typed block classification을 제공함
    • 페이지 단위와 단어 단위 inline confidence score도 같이 반환해서, 어디를 믿고 어디를 사람에게 넘길지 판단할 수 있음

중요

> OCR 4는 추출 텍스트, 바운딩 박스, 블록 타입, 신뢰도 점수를 항상 같이 돌려준다. RAG나 문서 자동화에서 “근거가 문서 어디에 있었는지”를 보여줘야 하는 팀에는 이게 꽤 큰 차이다.

벤치마크와 숫자

  • 미스트랄은 OCR 4가 테스트한 주요 OCR·문서 AI 시스템보다 인간 평가에서 더 선호됐다고 주장함

    • 12개 이상 언어의 실제 산업 문서 600개 이상을 모아 독립 평가자가 블라인드로 비교함
    • 평균 win rate는 72%라고 제시함
    • 자동 벤치마크보다 실제 문서에서 사람이 보는 품질을 더 중시했다는 설명임
  • 공개 벤치마크에서도 강한 숫자를 내세움

    • OlmOCRBench 전체 점수 85.20으로 테스트한 모델 중 1위라고 밝힘
    • OmniDocBench 점수는 93.07이라고 공개함
    • 내부 Crawl Multilingual 평가에서는 0.98을 기록했고, 영어, 서유럽, 동유럽, 중동, 중국어, 동아시아, 동남아시아, 특수 언어 그룹 전반에서 앞섰다고 함
  • 다만 미스트랄도 벤치마크 숫자를 절대값으로 보지 말라고 선을 그음

    • 정답 데이터 자체에 오타나 누락이 있는 경우가 있음
    • 렌더링하면 같은 수식인데 LaTeX 문자열이 다르면 오답 처리될 수 있음
    • 다단 컬럼 문서에서 읽기 순서나 하이픈 처리 때문에 맞는 출력이 틀린 것으로 계산될 수 있음
    • 그래서 aggregate score는 방향성 지표로 보라는 입장임

어디에 쓰라는 건가

  • 가장 직접적인 용도는 RAG와 엔터프라이즈 검색임

    • 분류된 블록을 semantic chunking 단위로 쓰면 검색 품질을 높이기 좋음
    • Search Toolkit 공개 프리뷰와도 연결돼서 ingestion, retrieval, evaluation 워크플로우에 넣을 수 있음
    • 출처 기반 답변(source-grounded answer)을 만들 때 바운딩 박스와 블록 타입이 근거 표시를 도와줌
  • 에이전트 워크플로우에서도 문서 구조가 꽤 중요해짐

    • 폼 작성, 송장 처리, 컴플라이언스 체크 같은 작업은 “문서에 뭐라고 적혔나”뿐 아니라 “어느 필드가 어떤 역할인가”가 필요함
    • confidence score가 있으면 낮은 확신의 항목만 사람 검수로 넘기는 human-in-the-loop 파이프라인을 만들 수 있음
    • 민감정보 가림(redaction)이나 규제 대응 프로세스에서도 위치 정보가 바로 써먹기 좋음
sequenceDiagram
    participant 문서
    participant OCR4
    participant 검색파이프라인
    participant 언어모델
    participant 검수자
    문서->>OCR4: PDF/DOC/PPT 입력
    OCR4->>검색파이프라인: 텍스트, 바운딩 박스, 블록 타입, 신뢰도 반환
    검색파이프라인->>언어모델: 근거 포함 검색 결과 전달
    언어모델->>검수자: 출처 기반 답변 또는 구조화 결과 제시
    검수자->>검색파이프라인: 낮은 신뢰도 항목만 확인

가격과 선택지

  • API 가격은 꽤 명확하게 제시됨

    • OCR 4 API는 1,000페이지당 4달러임
    • Batch API를 쓰면 50% 할인돼서 1,000페이지당 2달러임
    • Document AI는 1,000페이지당 5달러임
  • 미스트랄이 제시한 선택 기준은 단순함

    • 원문 추출 결과, 바운딩 박스, 블록 타입, 신뢰도 점수를 직접 다루고 싶으면 OCR 4 API를 쓰면 됨
    • 특정 JSON 스키마로 결과를 받고 싶거나, 이미지 주석을 구조화하거나, 커스텀 프롬프트로 문서 내용을 재해석하고 싶으면 Document AI 파라미터를 얹는 방식임
    • Document AI는 OCR 결과 위에 구조화 계층을 추가하는 개념이지, 완전히 다른 엔진을 쓰는 구조는 아님
  • 배포 채널도 엔터프라이즈 쪽을 노리고 있음

    • Mistral Studio, Amazon SageMaker, Microsoft Foundry에서 사용할 수 있음
    • Snowflake Parse Document 지원도 예정돼 있음
    • 엄격한 데이터 거버넌스가 필요한 조직에는 셀프호스팅 옵션을 제공함

⚠️주의

> 미스트랄은 OCR 4를 의학 진단, 법률 판단, 고위험 금융 의사결정, 안전 필수 시스템, 실시간 처리, 오디오·비디오 입력에는 쓰지 말라고 명시한다.


기술 맥락

  • OCR 4의 기술적 선택은 “텍스트만 뽑지 말고 문서 구조까지 API 응답으로 고정하자”는 쪽이에요. 왜냐하면 RAG나 엔터프라이즈 검색에서는 문장을 뽑는 것만으로는 부족하고, 그 문장이 표인지 제목인지 본문인지 알아야 검색 단위가 좋아지거든요.

  • 바운딩 박스가 중요한 이유는 답변의 신뢰성과 연결돼요. 모델이 어떤 문장을 근거로 답했는지 화면에서 하이라이트할 수 있어야 사용자가 검증할 수 있고, 민감정보 가림이나 수동 검수도 위치 정보가 있어야 자동화하기 쉬워요.

  • confidence score는 운영 비용과 연결돼요. 모든 추출 결과를 사람이 다시 보면 OCR을 쓰는 의미가 줄어드니까, 낮은 신뢰도 항목만 검수 큐로 보내는 식의 파이프라인을 만들 수 있어요.

  • API와 Document AI를 나눈 것도 실무적인 선택이에요. 개발팀이 후처리 로직을 직접 짤 수 있으면 원시 OCR 출력을 쓰는 게 유연하고, 업무팀이 바로 JSON 필드를 원하면 Document AI 계층을 얹는 게 빠르거든요.

  • 셀프호스팅을 단일 컨테이너로 내세운 건 문서 데이터의 성격 때문이에요. 계약서, 의료 문서, 금융 문서처럼 외부 API로 보내기 어려운 데이터가 많아서, 성능만큼이나 데이터 주권과 컴플라이언스가 구매 결정에 영향을 줘요.

요즘 OCR은 그냥 글자 뽑는 기능이 아니라 검색, RAG, 에이전트 업무 자동화의 입구가 되고 있다. OCR 4가 강조하는 바운딩 박스와 신뢰도 점수는 예쁘게 보이는 부가 기능이 아니라, 출처 표시와 검수 워크플로우를 만들 때 바로 돈값을 하는 정보다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

기업 AI 투자, 이제 비용절감보다 성장과 새 사업모델로 간다

아코디스 보고서에 따르면 기업의 AI 투자는 효율화 중심에서 성장, 혁신, 신규 비즈니스 모델 쪽으로 무게가 옮겨가고 있다. 다만 AI 도입 속도와 별개로, CTO들이 기업 전체에 AI를 확장할 수 있다는 자신감은 3년 연속 떨어졌다. 핵심 병목은 모델 성능보다 운영 모델, 거버넌스, 책임 구분 같은 조직 문제에 가깝다.

ai-ml

그록, 6억5천만 달러 조달하고 ‘AI 추론 클라우드’ 운영사로 피벗

그록이 6억5천만 달러 규모의 신규 성장 자본을 유치하고 AI 추론 클라우드 운영에 회사를 집중하겠다고 밝혔음. 자체 칩 기술은 엔비디아에 넘어가고, 그록은 엔비디아 LPX 시스템까지 활용해 13개 데이터센터를 2027년 말까지 200MW 규모로 확장할 계획임.

ai-ml

제타, 팔란티어 파운드리 기반으로 AI 데이터 클라우드 재구축한다

AI 마케팅 플랫폼 기업 제타 글로벌이 팔란티어와 전략적 제휴를 맺고 자체 데이터 클라우드를 재구축하기로 했음. 팔란티어의 파운드리를 기반으로 빅데이터 처리 속도와 예측 정확도를 높이겠다는 기대가 나오면서 제타 주가는 장중 5.66% 상승했음.

ai-ml

심평원, 전 국민 진료정보 기반 의료 AI 만든다

심평원이 전 국민 건강보험 진료정보와 공통데이터모델(CDM)을 기반으로 보건의료 특화 생성형 AI를 만들겠다고 밝혔다. 목표는 단순 질의응답이 아니라 연구 설계, SQL 생성, 통계분석, 결과 산출까지 돕는 연구지원 플랫폼으로 가는 것이다.

ai-ml

일본, 미국·중국 AI 의존 줄이려 프랑스·인도와 'AI 주권' 전선 만든다

일본이 프랑스, 인도, 브라질, 말레이시아, 영국 등과 AI 주권 협의체를 만들며 미국·중국 중심 AI 질서에서 빠져나오려는 움직임을 보이고 있다. 핵심은 자국 데이터, 인프라, 모델을 외부 플랫폼에 종속시키지 않고 관리하자는 것이며, 방위·스마트시티·광물 탐사·농업까지 경제 안보 영역으로 확장되고 있다.