본문으로 건너뛰기
피드

한컴, PDF 데이터 추출 오픈소스 ODL로 AI 생태계 판 키운다

ai-ml 약 5분
vote
0
댓글
북마크

한컴이 사명을 바꾸고 소버린 에이전틱 OS 기업으로 전환하겠다고 선언했다. 핵심 카드는 PDF 비정형 데이터를 뽑아내는 오픈소스 ODL이고, 유럽 데이터 주권 흐름과 문서 접근성 시장까지 함께 노리는 전략이다.

  • 1

    ODL V2.0은 종합점수, 읽기순서, 표 추출, 헤딩인식 벤치마크에서 글로벌 1위를 기록했다

  • 2

    한컴은 1조원 이상으로 추산되는 PDF 접근성 시장에서 5%만 확보해도 500억원 이상 신규 시장을 만들 수 있다고 본다

  • 3

    국회도서관 180만 페이지 PDF 데이터화와 RAG 시스템 구축 사례를 레퍼런스로 내세운다

  • 한컴이 기존 ‘문서 소프트웨어 회사’ 이미지를 벗고, 소버린 에이전틱 OS 기업으로 가겠다고 선언함

    • 생성형 AI가 단일 챗봇을 넘어 여러 에이전트를 조율하는 방향으로 가고 있고, 여기에 데이터 주권 이슈까지 붙으면서 사업 구조를 바꾸는 흐름임
    • 김연수 대표는 자체 대규모 언어 모델(LLM)을 만들기보다, 팔란티어처럼 고객이 안전하게 커스터마이즈할 수 있는 AX 협업 인프라를 지향한다고 설명함
  • 핵심 무기는 오픈데이터로더(ODL)임. PDF에서 비정형 데이터를 뽑아내는 오픈소스 기술임

    • 기업과 공공기관 문서는 아직도 대부분 PDF로 돌아가는데, AI 전환을 하려면 이걸 그냥 파일로 두면 안 되고 데이터로 바꿔야 함
    • ODL V2.0은 종합점수, 읽기순서, 표 추출, 헤딩인식 벤치마크에서 글로벌 1위를 찍었다고 함
    • 최근에는 깃허브 트렌딩 1위 리포지토리에도 올라갔음. 국내 문서 기업 기술이 글로벌 개발자 눈에 들어간 케이스라 꽤 흥미로움

중요

> 한컴이 보는 시장은 단순 PDF 변환기가 아님. PDF 안의 정보를 AI가 읽고, 검색하고, 접근성 표준까지 맞추게 만드는 데이터 인프라 시장임.

  • 한컴은 접근성 시장을 ODL의 수익화 포인트로 보고 있음

    • 지난달 PDF 접근성 시장을 겨냥한 오토 태깅 솔루션을 오픈소스로 배포함
    • 하반기부터는 유료 애드온을 배포해 새 비즈니스 모델을 만들 계획임
    • 회사 추산으로 접근성 시장은 1조원 이상이고, 그중 5%만 가져와도 500억원 이상 신규 시장이 된다는 계산임
  • 공공 레퍼런스도 꽤 세게 밀고 있음

    • 국회도서관과 180만 페이지 규모 PDF 자료를 데이터화했고, 한컴피디아 기반 검색 증강 생성(RAG) 시스템을 단독 구축한 이력이 있음
    • 국회 사무처 AX 사업에도 삼성SDS 주관 컨소시엄으로 참여해 주요 제품을 납품함
    • 보수적이고 보안 요구가 강한 공공망에서 돌아간 경험은, 온프레미스 AI 솔루션을 팔 때 확실히 먹히는 카드임
  • 유럽 진출도 데이터 주권 흐름에 맞춰 잡고 있음

    • 폴란드 연구개발 기업과 업무협약을 마쳤고, 글로벌 기술 그룹 산하 AI·데이터 전문 SI 업체와도 협약을 앞두고 있음
    • 유럽 9개국 거점을 가진 중유럽 IT 컨설팅 파트너와도 협력할 예정임
    • 유럽은 데이터 주권 논의가 강한 시장이라, 온프레미스에서도 쓸 수 있는 문서 AI 인프라가 통할 여지가 있음

기술 맥락

  • 한컴의 선택은 LLM 자체를 만드는 쪽이 아니라, LLM이 쓸 수 있는 문서 데이터를 만드는 쪽이에요. PDF는 사람 눈에는 문서지만 AI 입장에서는 표, 제목, 읽기 순서가 뒤섞인 어려운 입력이거든요.

  • ODL이 중요한 이유는 PDF 파싱 품질이 RAG 품질로 바로 이어지기 때문이에요. 표를 잘못 읽거나 제목 구조를 놓치면 검색 결과가 틀어지고, 그러면 생성형 AI 답변도 그럴듯하게 틀릴 수 있어요.

  • 접근성 시장을 같이 보는 것도 꽤 실용적인 방향이에요. PDF UA처럼 구조화된 PDF를 요구하는 규제가 늘면, 기업은 단순 변환이 아니라 태깅과 검증까지 자동화해야 하거든요.

  • 온프레미스 배포를 강조하는 건 공공·금융·대기업 문서가 외부 클라우드로 나가기 어려운 현실 때문이에요. 한컴이 국회도서관 180만 페이지 사례를 계속 꺼내는 것도, 기술 설명보다 신뢰 증명이 더 중요한 시장이라는 뜻이에요.

문서 기업이 LLM을 직접 만들기보다 PDF 파싱, 접근성, 온프레미스 배포 같은 ‘AI가 먹을 데이터를 만드는 층’을 잡겠다는 전략이라 꽤 현실적이다. 특히 공공·기업 문서가 PDF에 갇혀 있는 한국 환경에서는 생각보다 바로 와닿는 문제다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.