---
title: "한컴, PDF 데이터 추출 오픈소스 ODL로 AI 생태계 판 키운다"
published: 2026-05-20T23:05:04.208Z
canonical: https://jeff.news/article/3054
---
# 한컴, PDF 데이터 추출 오픈소스 ODL로 AI 생태계 판 키운다

한컴이 사명을 바꾸고 소버린 에이전틱 OS 기업으로 전환하겠다고 선언했다. 핵심 카드는 PDF 비정형 데이터를 뽑아내는 오픈소스 ODL이고, 유럽 데이터 주권 흐름과 문서 접근성 시장까지 함께 노리는 전략이다.

- 한컴이 기존 ‘문서 소프트웨어 회사’ 이미지를 벗고, 소버린 에이전틱 OS 기업으로 가겠다고 선언함
  - 생성형 AI가 단일 챗봇을 넘어 여러 에이전트를 조율하는 방향으로 가고 있고, 여기에 데이터 주권 이슈까지 붙으면서 사업 구조를 바꾸는 흐름임
  - 김연수 대표는 자체 대규모 언어 모델(LLM)을 만들기보다, 팔란티어처럼 고객이 안전하게 커스터마이즈할 수 있는 AX 협업 인프라를 지향한다고 설명함

- 핵심 무기는 오픈데이터로더(ODL)임. PDF에서 비정형 데이터를 뽑아내는 오픈소스 기술임
  - 기업과 공공기관 문서는 아직도 대부분 PDF로 돌아가는데, AI 전환을 하려면 이걸 그냥 파일로 두면 안 되고 데이터로 바꿔야 함
  - ODL V2.0은 종합점수, 읽기순서, 표 추출, 헤딩인식 벤치마크에서 글로벌 1위를 찍었다고 함
  - 최근에는 깃허브 트렌딩 1위 리포지토리에도 올라갔음. 국내 문서 기업 기술이 글로벌 개발자 눈에 들어간 케이스라 꽤 흥미로움

> [!IMPORTANT]
> 한컴이 보는 시장은 단순 PDF 변환기가 아님. PDF 안의 정보를 AI가 읽고, 검색하고, 접근성 표준까지 맞추게 만드는 데이터 인프라 시장임.

- 한컴은 접근성 시장을 ODL의 수익화 포인트로 보고 있음
  - 지난달 PDF 접근성 시장을 겨냥한 오토 태깅 솔루션을 오픈소스로 배포함
  - 하반기부터는 유료 애드온을 배포해 새 비즈니스 모델을 만들 계획임
  - 회사 추산으로 접근성 시장은 1조원 이상이고, 그중 5%만 가져와도 500억원 이상 신규 시장이 된다는 계산임

- 공공 레퍼런스도 꽤 세게 밀고 있음
  - 국회도서관과 180만 페이지 규모 PDF 자료를 데이터화했고, 한컴피디아 기반 검색 증강 생성(RAG) 시스템을 단독 구축한 이력이 있음
  - 국회 사무처 AX 사업에도 삼성SDS 주관 컨소시엄으로 참여해 주요 제품을 납품함
  - 보수적이고 보안 요구가 강한 공공망에서 돌아간 경험은, 온프레미스 AI 솔루션을 팔 때 확실히 먹히는 카드임

- 유럽 진출도 데이터 주권 흐름에 맞춰 잡고 있음
  - 폴란드 연구개발 기업과 업무협약을 마쳤고, 글로벌 기술 그룹 산하 AI·데이터 전문 SI 업체와도 협약을 앞두고 있음
  - 유럽 9개국 거점을 가진 중유럽 IT 컨설팅 파트너와도 협력할 예정임
  - 유럽은 데이터 주권 논의가 강한 시장이라, 온프레미스에서도 쓸 수 있는 문서 AI 인프라가 통할 여지가 있음

---

## 기술 맥락

- 한컴의 선택은 LLM 자체를 만드는 쪽이 아니라, LLM이 쓸 수 있는 문서 데이터를 만드는 쪽이에요. PDF는 사람 눈에는 문서지만 AI 입장에서는 표, 제목, 읽기 순서가 뒤섞인 어려운 입력이거든요.

- ODL이 중요한 이유는 PDF 파싱 품질이 RAG 품질로 바로 이어지기 때문이에요. 표를 잘못 읽거나 제목 구조를 놓치면 검색 결과가 틀어지고, 그러면 생성형 AI 답변도 그럴듯하게 틀릴 수 있어요.

- 접근성 시장을 같이 보는 것도 꽤 실용적인 방향이에요. PDF UA처럼 구조화된 PDF를 요구하는 규제가 늘면, 기업은 단순 변환이 아니라 태깅과 검증까지 자동화해야 하거든요.

- 온프레미스 배포를 강조하는 건 공공·금융·대기업 문서가 외부 클라우드로 나가기 어려운 현실 때문이에요. 한컴이 국회도서관 180만 페이지 사례를 계속 꺼내는 것도, 기술 설명보다 신뢰 증명이 더 중요한 시장이라는 뜻이에요.

## 핵심 포인트

- ODL V2.0은 종합점수, 읽기순서, 표 추출, 헤딩인식 벤치마크에서 글로벌 1위를 기록했다
- 한컴은 1조원 이상으로 추산되는 PDF 접근성 시장에서 5%만 확보해도 500억원 이상 신규 시장을 만들 수 있다고 본다
- 국회도서관 180만 페이지 PDF 데이터화와 RAG 시스템 구축 사례를 레퍼런스로 내세운다

## 인사이트

문서 기업이 LLM을 직접 만들기보다 PDF 파싱, 접근성, 온프레미스 배포 같은 ‘AI가 먹을 데이터를 만드는 층’을 잡겠다는 전략이라 꽤 현실적이다. 특히 공공·기업 문서가 PDF에 갇혀 있는 한국 환경에서는 생각보다 바로 와닿는 문제다.
