본문으로 건너뛰기
피드

한컴, PDF 접근성 태그를 자동 생성하는 AI 도구 오픈소스로 공개

open-source 약 5분
vote
0
댓글
북마크

한컴이 ‘오픈데이터로더 PDF’에 PDF 접근성 태그 자동 생성 기능을 넣고 오픈소스로 공개했어. AI가 제목, 표, 목록, 이미지 같은 문서 구조를 분석해 PDF 내부에 태그로 반영하는 방식이고, 온프레미스 실행과 파이썬·자바·명령줄 도구 연동을 지원해 기업 대량 문서 전환을 노린다는 내용이야.

  • 1

    AI가 PDF 문서 구조를 분석해 접근성 태그를 자동 생성함

  • 2

    오픈소스로 공개돼 대량 PDF 전환 비용과 과금 부담을 낮출 수 있음

  • 3

    온프레미스 환경에서 실행돼 민감 문서를 외부 서버로 보내지 않아도 됨

  • 4

    미국 장애인법, 유럽 접근성법, 국내 장애인차별금지법 같은 규제 대응을 겨냥함

  • 5

    한컴은 2026년 2분기 안에 PDF/UA 수준의 상용 솔루션도 출시할 계획임

  • 한컴이 PDF 접근성 태그를 자동으로 만들어주는 AI 기능을 오픈소스로 공개함

    • 대상은 ‘오픈데이터로더 PDF’이고, AI가 제목·표·목록·이미지 같은 문서 구조를 분석해 PDF 내부에 태그 형태로 반영하는 방식임
    • 기존 도구가 문서 내용을 뽑아내는 수준에 머물렀다면, 이번 기능은 접근성 구조를 PDF 안에 직접 넣는 쪽에 초점이 있음
  • 이게 중요한 이유는 PDF가 너무 많이 쓰이는데, 접근성 태그가 없는 문서도 너무 많기 때문임

    • 태그가 없으면 스크린 리더가 제목, 표, 목록, 이미지 흐름을 제대로 이해하기 어려움
    • 시각장애인 같은 정보 접근 취약 계층 입장에서는 ‘파일은 있는데 읽을 수 없는’ 상황이 생김
  • 한컴은 이 기능을 무료 오픈소스로 풀어서 대량 문서 전환 비용을 낮추겠다는 그림을 잡고 있음

    • 기업이나 공공기관은 추가 비용이나 건당 과금 부담 없이 많은 PDF를 접근성 문서로 바꿀 수 있음
    • 파이썬, 자바 라이브러리와 명령줄 도구를 제공해 기존 업무 흐름에 붙이기 쉽게 만들었다는 설명임

중요

> 핵심은 ‘PDF 내용을 추출한다’가 아니라 ‘접근성 구조를 PDF 내부에 자동 반영한다’는 점임. 규제 대응용 문서 전환에서는 이 차이가 꽤 큼.

  • 보안 쪽도 기업 도입을 의식한 설계임

    • 온프레미스 환경에서 실행돼 기업 문서가 외부 서버로 전송되지 않음
    • 계약서, 내부 보고서, 공공 문서처럼 외부 업로드가 민감한 PDF를 다루는 조직에선 이 부분이 거의 필수 조건에 가까움
  • 글로벌 접근성 규제 대응도 대놓고 겨냥하고 있음

    • PDF협회 기술 사양과 PDF 범용 접근성 국제 표준을 기준으로 설계됐다고 밝힘
    • 미국 장애인법, 유럽 접근성법, 국내 장애인차별금지법 대응을 염두에 둔 기능임
  • 한컴은 2026년 2분기 안에 PDF/UA 국제 표준 준수 수준의 결과물을 내는 상용 솔루션도 출시할 계획임

    • 오픈소스로 사용 기반을 넓히고, 더 강한 품질 검증이나 규제 대응이 필요한 기업에는 상용 제품을 제안하는 흐름으로 보임
    • 한컴 CTO도 PDF 접근성 시장이 오랫동안 높은 비용과 복잡한 도입 구조로 운영돼 왔다고 짚었음

기술 맥락

  • 이번 선택의 핵심은 PDF를 그냥 텍스트로 바꾸는 게 아니라, 문서 구조를 태그로 다시 PDF 안에 넣는 거예요. 스크린 리더는 단순 문자열보다 제목, 표, 목록, 이미지 같은 구조 정보를 훨씬 중요하게 보거든요.

  • 온프레미스 실행을 강조한 것도 이유가 있어요. 기업 PDF에는 민감한 정보가 많아서 외부 클라우드에 올리는 순간 보안 검토가 길어지고, 공공·금융 쪽은 아예 도입이 막힐 수도 있어요.

  • 파이썬, 자바, 명령줄 도구를 같이 제공한다는 건 배치 변환을 염두에 둔 설계예요. 접근성 문제는 파일 몇 개 고치는 일이 아니라, 이미 쌓여 있는 대량 문서를 계속 처리해야 하는 운영 문제에 가깝거든요.

  • PDF/UA 같은 표준을 기준으로 잡는 이유도 명확해요. 접근성은 “대충 읽히면 됨”으로 끝나는 영역이 아니라, 규제 대응과 감사에서 결과물을 검증받아야 하는 영역이라 표준 준수 여부가 실제 구매 조건이 될 수 있어요.

PDF 접근성은 개발자 입장에선 ‘문서 변환’처럼 보여도 실제로는 규제, 보안, 배치 처리, 검증까지 얽힌 꽤 실무적인 문제임. 오픈소스로 핵심 기능을 풀고 상용 검증 제품으로 이어가겠다는 전략이라, 공공·금융·대기업 문서 시스템 쪽에서는 꽤 관심 가질 만함.

댓글

댓글

댓글을 불러오는 중...

open-source

오픈소스 AI가 이겨야 한다는 짧고 강한 선언

이 글은 AI가 소수 폐쇄형 기관에서 빌려 쓰는 자원이 되면 소프트웨어 자유뿐 아니라 운영의 자유까지 잃는다고 주장함. AI를 일, 교육, 과학, 소프트웨어, 공공서비스의 문명 인프라로 보고, 로컬 실행·감사·수정·보존 가능한 오픈소스 AI가 필요하다는 선언에 가까움.

open-source

수파베이스, 5억 달러 투자 받고 100억 달러 데카콘 됐다

오픈소스 데이터베이스 플랫폼 수파베이스가 5억 달러 시리즈F 투자를 유치하며 기업가치 100억 달러를 넘겼다. AI 코딩 도구 확산으로 수파베이스 기반 데이터베이스 생성이 1년간 600% 이상 늘었고, 이 중 60% 이상이 AI 도구를 통해 만들어졌다. 포스트그레스 기반 백엔드 플랫폼이 바이브 코딩 시대의 기본 인프라로 자리 잡는 흐름이다.

open-source

오픈소스 AI, 좋긴 한데 통제 없으면 진짜 위험하다는 경고

국제 공동 연구팀이 오픈소스 AI의 잠재력과 위험을 함께 짚으며 4가지 거버넌스 조치를 제안했다. 기후변화, 식량 안보 같은 문제 해결에 기여할 수 있지만, 환경 비용·기술 격차·가짜뉴스 확산을 방치하면 사회적 부담이 커질 수 있다는 주장이다.

open-source

프롬프트에 돈을 모으면 AI가 공개적으로 구현해주는 ‘페이블풀’

페이블풀은 사람들이 하나의 큰 프롬프트에 돈을 보태면 AI 에이전트가 공개 장부와 마일스톤을 따라 구현을 시도하는 서비스다. 최소 프로젝트 규모는 100달러 이상이고, 후원자는 0.25달러부터 참여할 수 있다.

open-source

홈브루 6.0.0 공개, 이제 서드파티 탭은 먼저 믿어야 실행된다

홈브루 6.0.0은 탭 신뢰 모델, 기본 내부 JSON API, 리눅스 샌드박스, brew bundle 개선, macOS 27 초기 지원을 한꺼번에 넣은 대형 릴리스다. 특히 서드파티 탭의 임의 Ruby 코드 실행 위험을 줄이고, 공급망 보안과 성능을 동시에 밀어붙인 게 핵심이다.