본문으로 건너뛰기
피드

한컴, PDF 접근성 태그 자동 생성 AI를 오픈소스로 공개

open-source 약 5분

한컴이 PDF에 접근성 태그를 자동으로 넣어주는 AI 기능을 오픈소스로 공개했어. 기업·공공기관이 대량 PDF를 비용 부담 없이 바꾸고, 미국·유럽·국내 접근성 규제 대응까지 노릴 수 있는 카드야.

  • 1

    AI가 PDF 구조를 분석해 제목·표·목록·이미지 태그를 자동 생성

  • 2

    문서 수 제한 없이 무료로 쓰고 온프레미스 환경에서 처리 가능

  • 3

    파이썬·노드제이에스·자바 라이브러리와 명령줄 도구 제공

  • 4

    2분기에는 PDF/UA 기준 상용 솔루션도 출시 예정

  • 한컴이 PDF 접근성 태그를 자동 생성·삽입하는 AI 기능을 오픈소스로 풀었음

    • 배포 위치는 ‘오픈데이터로더 PDF’고, 기업이나 공공기관이 추가 비용이나 건당 과금 없이 대량 PDF를 변환할 수 있다는 게 포인트임
    • PDF는 흔한 문서 포맷인데, 접근성 태그가 없는 파일은 스크린 리더가 제목·표·목록·이미지 구조를 제대로 이해하기 어려움
  • 이번 기능은 단순히 PDF에서 텍스트를 뽑는 수준이 아니라, 문서 구조를 분석해서 원본 PDF 내부에 접근성 태그를 다시 넣는 방식임

    • AI가 제목, 표, 목록, 이미지 같은 구성요소를 구분함
    • 그 결과를 접근성 구조로 만들어 PDF 안에 직접 반영함
    • 그래서 ‘읽을 수 있는 텍스트 추출’이 아니라 ‘보조 기술이 이해할 수 있는 문서 구조화’에 가까움

중요

> 핵심은 무료 사용량이 아니라 ‘문서 수량 제한 없이 온프레미스에서 처리 가능’하다는 점임. 민감한 문서를 외부 클라우드로 보내기 어려운 조직엔 이 차이가 큼.

  • 한컴이 이 타이밍에 움직인 배경은 접근성 규제 강화임

    • 미국 장애인법(ADA) 타이틀 II, 유럽 접근성법(EAA), 국내 장애인차별금지법 같은 규제가 본격화되는 흐름이 있음
    • 기업·공공기관은 이미 쌓여 있는 PDF 문서를 접근성 기준에 맞게 바꿔야 하는 압박을 받게 됨
    • 기존 시장에선 클라우드 API 무료 제공 범위가 제한적이고, 제대로 도입하면 연간 수만 달러 비용이 나오는 경우도 많았다고 함
  • 개발자 입장에서 반가운 부분은 연동 옵션이 꽤 현실적이라는 점임

    • 파이썬, 노드제이에스, 자바 라이브러리를 제공함
    • 명령줄 도구도 같이 제공해서 기존 문서 처리 파이프라인에 끼워 넣기 쉬운 구조임
    • 온프레미스 처리라 사내 문서 관리 시스템, 공공기관 내부망, 금융권 폐쇄망 같은 환경에도 맞춰볼 여지가 있음
  • 한컴의 전략은 꽤 전형적인 오픈 코어 모델에 가까움

    • 핵심 변환 기능은 오픈소스로 공개해서 생태계를 넓힘
    • 2026년 2분기에는 PDF/UA 국제 표준 준수 수준의 상용 솔루션을 출시할 계획임
    • 무료 도구로 진입 장벽을 낮추고, 감사 대응이나 규제 준수가 필요한 기업 고객에게 상용 제품을 파는 그림임
  • 정지환 한컴 최고기술책임자는 PDF 접근성 시장이 오래전부터 비용과 도입 난이도가 높은 구조였다고 설명함

    • 한컴은 핵심 기능을 공개해서 누구나 접근성 전환을 시작할 수 있게 하겠다는 입장임
    • 동시에 대량 문서를 다루는 기업에는 무료 도구와 PDF/UA 준수 상용 솔루션을 같이 제공하겠다는 계획임

기술 맥락

  • 이번 선택의 핵심은 PDF를 ‘텍스트 덩어리’가 아니라 ‘구조가 있는 문서’로 다루는 거예요. 스크린 리더는 문서 안에 제목, 표, 목록, 이미지 같은 힌트가 있어야 내용을 자연스럽게 읽을 수 있거든요.

  • 한컴이 오픈소스로 먼저 푼 이유는 대량 문서 전환의 진입 장벽을 낮추려는 쪽에 가까워요. 접근성 규제는 기업이 피하기 어려운데, 기존 방식처럼 문서마다 과금되거나 클라우드로 올려야 하면 공공·금융 쪽에서는 바로 막히기 쉬워요.

  • 온프레미스 처리가 중요한 건 PDF 안에 민감한 정보가 들어갈 가능성이 높기 때문이에요. 계약서, 행정문서, 내부 보고서를 외부 API로 보내기 어렵다면 내부 서버에서 돌릴 수 있는 도구가 훨씬 현실적이에요.

  • 상용 솔루션을 따로 준비하는 것도 자연스러운 흐름이에요. 오픈소스 도구로 변환을 시작하게 만들고, 실제 규제 감사나 PDF/UA 준수 검증이 필요한 조직에는 더 엄격한 품질 보장과 지원을 파는 구조거든요.

그냥 ‘PDF 텍스트 추출기’가 아니라 접근성 태그를 실제 PDF 안에 다시 심는 쪽이라 실무 쓸모가 꽤 큼. 규제 대응이 필요한 공공·금융·대기업 입장에선 오픈소스로 먼저 깔아보고 상용 검증 솔루션으로 가는 흐름이 자연스러워 보임.

댓글

댓글

댓글을 불러오는 중...

open-source

한컴, PDF 접근성 태그를 자동 생성하는 AI 도구 오픈소스로 공개

한컴이 ‘오픈데이터로더 PDF’에 PDF 접근성 태그 자동 생성 기능을 넣고 오픈소스로 공개했어. AI가 제목, 표, 목록, 이미지 같은 문서 구조를 분석해 PDF 내부에 태그로 반영하는 방식이고, 온프레미스 실행과 파이썬·자바·명령줄 도구 연동을 지원해 기업 대량 문서 전환을 노린다는 내용이야.

open-source

깃허브 독점에서 벗어나려면 '연합형 포지'가 필요하다는 주장

탱글드 쪽 글은 오픈소스 협업이 깃허브 같은 단일 플랫폼에 너무 의존하고 있다며, 깃 저장소와 협업 이벤트를 여러 서버가 나눠 갖는 연합형 포지가 필요하다고 주장해. 탱글드는 코드 전송은 기존 깃을 쓰고, 이슈와 풀 리퀘스트 같은 협업 이벤트는 에이티 프로토콜로 주고받는 방식을 제안함.

open-source

네덜란드 정부, 자체 호스팅 오픈소스 코드 플랫폼 시범 공개

네덜란드 정부가 공공기관용 오픈소스 코드 플랫폼 code.overheid.nl을 시범 공개했다. GitHub나 GitLab 대신 Forgejo 기반의 자체 호스팅 플랫폼을 쓰며, 디지털 주권과 정부 코드 공개를 핵심 목표로 내세운다.

open-source

로그시크, 마크다운 기반 기존 앱과 새 앱으로 갈라진다

로그시크가 앞으로 기존 마크다운 기반 앱을 ‘로그시크 오리지널’로 유지하고, 새 ‘로그시크’와 분리해 운영하겠다고 밝혔어. 기존 사용자는 당장 옮길 필요 없이 지금 쓰던 앱을 계속 쓰거나 원하는 시점에 전환하면 돼.

open-source

오픈소스 휴머노이드 로봇 ‘아시모프 v1’, 설계도부터 시뮬레이션까지 공개

아시모프 v1은 직접 조립하고 훈련하고 커스터마이즈할 수 있는 오픈소스 휴머노이드 로봇 프로젝트다. 키 1.2미터, 무게 35킬로그램, 구동 자유도 25개짜리 양족 보행 로봇이며 기계 설계, 전장 설계, 시뮬레이션 모델, 온보드 소프트웨어를 저장소에 공개했다.