한컴, PDF 데이터 추출 오픈소스 ODL로 AI 생태계 판 키운다

ai-ml 2026-05-20 약 5분

 tags

#odl #pdf #rag #open-source #sovereign-ai

vote

북마크

한컴이 사명을 바꾸고 소버린 에이전틱 OS 기업으로 전환하겠다고 선언했다. 핵심 카드는 PDF 비정형 데이터를 뽑아내는 오픈소스 ODL이고, 유럽 데이터 주권 흐름과 문서 접근성 시장까지 함께 노리는 전략이다.

1
ODL V2.0은 종합점수, 읽기순서, 표 추출, 헤딩인식 벤치마크에서 글로벌 1위를 기록했다
2
한컴은 1조원 이상으로 추산되는 PDF 접근성 시장에서 5%만 확보해도 500억원 이상 신규 시장을 만들 수 있다고 본다
3
국회도서관 180만 페이지 PDF 데이터화와 RAG 시스템 구축 사례를 레퍼런스로 내세운다

한컴이 기존 ‘문서 소프트웨어 회사’ 이미지를 벗고, 소버린 에이전틱 OS 기업으로 가겠다고 선언함
- 생성형 AI가 단일 챗봇을 넘어 여러 에이전트를 조율하는 방향으로 가고 있고, 여기에 데이터 주권 이슈까지 붙으면서 사업 구조를 바꾸는 흐름임
- 김연수 대표는 자체 대규모 언어 모델(LLM)을 만들기보다, 팔란티어처럼 고객이 안전하게 커스터마이즈할 수 있는 AX 협업 인프라를 지향한다고 설명함
핵심 무기는 오픈데이터로더(ODL)임. PDF에서 비정형 데이터를 뽑아내는 오픈소스 기술임
- 기업과 공공기관 문서는 아직도 대부분 PDF로 돌아가는데, AI 전환을 하려면 이걸 그냥 파일로 두면 안 되고 데이터로 바꿔야 함
- ODL V2.0은 종합점수, 읽기순서, 표 추출, 헤딩인식 벤치마크에서 글로벌 1위를 찍었다고 함
- 최근에는 깃허브 트렌딩 1위 리포지토리에도 올라갔음. 국내 문서 기업 기술이 글로벌 개발자 눈에 들어간 케이스라 꽤 흥미로움

❗중요

> 한컴이 보는 시장은 단순 PDF 변환기가 아님. PDF 안의 정보를 AI가 읽고, 검색하고, 접근성 표준까지 맞추게 만드는 데이터 인프라 시장임.

한컴은 접근성 시장을 ODL의 수익화 포인트로 보고 있음
- 지난달 PDF 접근성 시장을 겨냥한 오토 태깅 솔루션을 오픈소스로 배포함
- 하반기부터는 유료 애드온을 배포해 새 비즈니스 모델을 만들 계획임
- 회사 추산으로 접근성 시장은 1조원 이상이고, 그중 5%만 가져와도 500억원 이상 신규 시장이 된다는 계산임
공공 레퍼런스도 꽤 세게 밀고 있음
- 국회도서관과 180만 페이지 규모 PDF 자료를 데이터화했고, 한컴피디아 기반 검색 증강 생성(RAG) 시스템을 단독 구축한 이력이 있음
- 국회 사무처 AX 사업에도 삼성SDS 주관 컨소시엄으로 참여해 주요 제품을 납품함
- 보수적이고 보안 요구가 강한 공공망에서 돌아간 경험은, 온프레미스 AI 솔루션을 팔 때 확실히 먹히는 카드임
유럽 진출도 데이터 주권 흐름에 맞춰 잡고 있음
- 폴란드 연구개발 기업과 업무협약을 마쳤고, 글로벌 기술 그룹 산하 AI·데이터 전문 SI 업체와도 협약을 앞두고 있음
- 유럽 9개국 거점을 가진 중유럽 IT 컨설팅 파트너와도 협력할 예정임
- 유럽은 데이터 주권 논의가 강한 시장이라, 온프레미스에서도 쓸 수 있는 문서 AI 인프라가 통할 여지가 있음

기술 맥락

한컴의 선택은 LLM 자체를 만드는 쪽이 아니라, LLM이 쓸 수 있는 문서 데이터를 만드는 쪽이에요. PDF는 사람 눈에는 문서지만 AI 입장에서는 표, 제목, 읽기 순서가 뒤섞인 어려운 입력이거든요.
ODL이 중요한 이유는 PDF 파싱 품질이 RAG 품질로 바로 이어지기 때문이에요. 표를 잘못 읽거나 제목 구조를 놓치면 검색 결과가 틀어지고, 그러면 생성형 AI 답변도 그럴듯하게 틀릴 수 있어요.
접근성 시장을 같이 보는 것도 꽤 실용적인 방향이에요. PDF UA처럼 구조화된 PDF를 요구하는 규제가 늘면, 기업은 단순 변환이 아니라 태깅과 검증까지 자동화해야 하거든요.
온프레미스 배포를 강조하는 건 공공·금융·대기업 문서가 외부 클라우드로 나가기 어려운 현실 때문이에요. 한컴이 국회도서관 180만 페이지 사례를 계속 꺼내는 것도, 기술 설명보다 신뢰 증명이 더 중요한 시장이라는 뜻이에요.

문서 기업이 LLM을 직접 만들기보다 PDF 파싱, 접근성, 온프레미스 배포 같은 ‘AI가 먹을 데이터를 만드는 층’을 잡겠다는 전략이라 꽤 현실적이다. 특히 공공·기업 문서가 PDF에 갇혀 있는 한국 환경에서는 생각보다 바로 와닿는 문제다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

한컴, PDF 데이터 추출 오픈소스 ODL로 AI 생태계 판 키운다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

한컴, PDF 데이터 추출 오픈소스 ODL로 AI 생태계 판 키운다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사