본문으로 건너뛰기
피드

한컴, PDF 접근성 태그 자동 생성 AI를 오픈소스로 공개

open-source 약 5분
vote
0
댓글
북마크

한컴이 PDF에 접근성 태그를 자동으로 넣어주는 AI 기능을 오픈소스로 공개했어. 기업·공공기관이 대량 PDF를 비용 부담 없이 바꾸고, 미국·유럽·국내 접근성 규제 대응까지 노릴 수 있는 카드야.

  • 1

    AI가 PDF 구조를 분석해 제목·표·목록·이미지 태그를 자동 생성

  • 2

    문서 수 제한 없이 무료로 쓰고 온프레미스 환경에서 처리 가능

  • 3

    파이썬·노드제이에스·자바 라이브러리와 명령줄 도구 제공

  • 4

    2분기에는 PDF/UA 기준 상용 솔루션도 출시 예정

  • 한컴이 PDF 접근성 태그를 자동 생성·삽입하는 AI 기능을 오픈소스로 풀었음

    • 배포 위치는 ‘오픈데이터로더 PDF’고, 기업이나 공공기관이 추가 비용이나 건당 과금 없이 대량 PDF를 변환할 수 있다는 게 포인트임
    • PDF는 흔한 문서 포맷인데, 접근성 태그가 없는 파일은 스크린 리더가 제목·표·목록·이미지 구조를 제대로 이해하기 어려움
  • 이번 기능은 단순히 PDF에서 텍스트를 뽑는 수준이 아니라, 문서 구조를 분석해서 원본 PDF 내부에 접근성 태그를 다시 넣는 방식임

    • AI가 제목, 표, 목록, 이미지 같은 구성요소를 구분함
    • 그 결과를 접근성 구조로 만들어 PDF 안에 직접 반영함
    • 그래서 ‘읽을 수 있는 텍스트 추출’이 아니라 ‘보조 기술이 이해할 수 있는 문서 구조화’에 가까움

중요

> 핵심은 무료 사용량이 아니라 ‘문서 수량 제한 없이 온프레미스에서 처리 가능’하다는 점임. 민감한 문서를 외부 클라우드로 보내기 어려운 조직엔 이 차이가 큼.

  • 한컴이 이 타이밍에 움직인 배경은 접근성 규제 강화임

    • 미국 장애인법(ADA) 타이틀 II, 유럽 접근성법(EAA), 국내 장애인차별금지법 같은 규제가 본격화되는 흐름이 있음
    • 기업·공공기관은 이미 쌓여 있는 PDF 문서를 접근성 기준에 맞게 바꿔야 하는 압박을 받게 됨
    • 기존 시장에선 클라우드 API 무료 제공 범위가 제한적이고, 제대로 도입하면 연간 수만 달러 비용이 나오는 경우도 많았다고 함
  • 개발자 입장에서 반가운 부분은 연동 옵션이 꽤 현실적이라는 점임

    • 파이썬, 노드제이에스, 자바 라이브러리를 제공함
    • 명령줄 도구도 같이 제공해서 기존 문서 처리 파이프라인에 끼워 넣기 쉬운 구조임
    • 온프레미스 처리라 사내 문서 관리 시스템, 공공기관 내부망, 금융권 폐쇄망 같은 환경에도 맞춰볼 여지가 있음
  • 한컴의 전략은 꽤 전형적인 오픈 코어 모델에 가까움

    • 핵심 변환 기능은 오픈소스로 공개해서 생태계를 넓힘
    • 2026년 2분기에는 PDF/UA 국제 표준 준수 수준의 상용 솔루션을 출시할 계획임
    • 무료 도구로 진입 장벽을 낮추고, 감사 대응이나 규제 준수가 필요한 기업 고객에게 상용 제품을 파는 그림임
  • 정지환 한컴 최고기술책임자는 PDF 접근성 시장이 오래전부터 비용과 도입 난이도가 높은 구조였다고 설명함

    • 한컴은 핵심 기능을 공개해서 누구나 접근성 전환을 시작할 수 있게 하겠다는 입장임
    • 동시에 대량 문서를 다루는 기업에는 무료 도구와 PDF/UA 준수 상용 솔루션을 같이 제공하겠다는 계획임

기술 맥락

  • 이번 선택의 핵심은 PDF를 ‘텍스트 덩어리’가 아니라 ‘구조가 있는 문서’로 다루는 거예요. 스크린 리더는 문서 안에 제목, 표, 목록, 이미지 같은 힌트가 있어야 내용을 자연스럽게 읽을 수 있거든요.

  • 한컴이 오픈소스로 먼저 푼 이유는 대량 문서 전환의 진입 장벽을 낮추려는 쪽에 가까워요. 접근성 규제는 기업이 피하기 어려운데, 기존 방식처럼 문서마다 과금되거나 클라우드로 올려야 하면 공공·금융 쪽에서는 바로 막히기 쉬워요.

  • 온프레미스 처리가 중요한 건 PDF 안에 민감한 정보가 들어갈 가능성이 높기 때문이에요. 계약서, 행정문서, 내부 보고서를 외부 API로 보내기 어렵다면 내부 서버에서 돌릴 수 있는 도구가 훨씬 현실적이에요.

  • 상용 솔루션을 따로 준비하는 것도 자연스러운 흐름이에요. 오픈소스 도구로 변환을 시작하게 만들고, 실제 규제 감사나 PDF/UA 준수 검증이 필요한 조직에는 더 엄격한 품질 보장과 지원을 파는 구조거든요.

그냥 ‘PDF 텍스트 추출기’가 아니라 접근성 태그를 실제 PDF 안에 다시 심는 쪽이라 실무 쓸모가 꽤 큼. 규제 대응이 필요한 공공·금융·대기업 입장에선 오픈소스로 먼저 깔아보고 상용 검증 솔루션으로 가는 흐름이 자연스러워 보임.

댓글

댓글

댓글을 불러오는 중...

open-source

오픈소스 AI가 이겨야 한다는 짧고 강한 선언

이 글은 AI가 소수 폐쇄형 기관에서 빌려 쓰는 자원이 되면 소프트웨어 자유뿐 아니라 운영의 자유까지 잃는다고 주장함. AI를 일, 교육, 과학, 소프트웨어, 공공서비스의 문명 인프라로 보고, 로컬 실행·감사·수정·보존 가능한 오픈소스 AI가 필요하다는 선언에 가까움.

open-source

수파베이스, 5억 달러 투자 받고 100억 달러 데카콘 됐다

오픈소스 데이터베이스 플랫폼 수파베이스가 5억 달러 시리즈F 투자를 유치하며 기업가치 100억 달러를 넘겼다. AI 코딩 도구 확산으로 수파베이스 기반 데이터베이스 생성이 1년간 600% 이상 늘었고, 이 중 60% 이상이 AI 도구를 통해 만들어졌다. 포스트그레스 기반 백엔드 플랫폼이 바이브 코딩 시대의 기본 인프라로 자리 잡는 흐름이다.

open-source

오픈소스 AI, 좋긴 한데 통제 없으면 진짜 위험하다는 경고

국제 공동 연구팀이 오픈소스 AI의 잠재력과 위험을 함께 짚으며 4가지 거버넌스 조치를 제안했다. 기후변화, 식량 안보 같은 문제 해결에 기여할 수 있지만, 환경 비용·기술 격차·가짜뉴스 확산을 방치하면 사회적 부담이 커질 수 있다는 주장이다.

open-source

프롬프트에 돈을 모으면 AI가 공개적으로 구현해주는 ‘페이블풀’

페이블풀은 사람들이 하나의 큰 프롬프트에 돈을 보태면 AI 에이전트가 공개 장부와 마일스톤을 따라 구현을 시도하는 서비스다. 최소 프로젝트 규모는 100달러 이상이고, 후원자는 0.25달러부터 참여할 수 있다.

open-source

홈브루 6.0.0 공개, 이제 서드파티 탭은 먼저 믿어야 실행된다

홈브루 6.0.0은 탭 신뢰 모델, 기본 내부 JSON API, 리눅스 샌드박스, brew bundle 개선, macOS 27 초기 지원을 한꺼번에 넣은 대형 릴리스다. 특히 서드파티 탭의 임의 Ruby 코드 실행 위험을 줄이고, 공급망 보안과 성능을 동시에 밀어붙인 게 핵심이다.