본문으로 건너뛰기
피드

공무원이 퇴근 후 만든 AI 도구가 던진 질문: 정부 데이터는 왜 아직 AI가 못 읽나

open-source 약 6분

광진구청 공무원이 HWP 문서 변환 도구와 법령 검색용 MCP 도구를 오픈소스로 공개하면서 공공기관의 AI 활용 문제가 다시 드러났다. 핵심은 개인의 미담이 아니라, 정부 데이터가 여전히 사람 눈으로 읽는 방식에 맞춰져 있고 AI가 호출하기 좋은 구조가 아니라는 점이다.

  • 1

    공공 HWP 문서와 법령 데이터를 AI가 다루기 쉽게 만든 오픈소스 도구가 주목받음

  • 2

    법제처에는 1,600개 이상 법률과 1만 개 이상 행정규칙, 방대한 판례가 있지만 개발자 경험은 나쁘다는 지적이 나옴

  • 3

    정부 AI 예산은 9조 9,000억 원으로 전년 대비 3배 이상 늘었지만 현장 기본 데이터 접근성은 여전히 문제

  • 광진구청 소속 공무원이 만든 AI 도구 2개가 공공기관 실무자들 사이에서 꽤 큰 반응을 얻음

    • 하나는 코닥(kordoc)으로, 공공기관에 쌓여 있는 HWP 문서를 AI가 분석할 수 있는 형태로 바꿔주는 도구임
    • 다른 하나는 korean-law-mcp로, 법제처에 흩어진 법률·판례 정보를 AI가 검색하고 비교할 수 있게 연결해주는 도구임
    • 둘 다 오픈소스로 공개됐고, 실무자들 사이에서는 말 그대로 “가려운 곳 긁어줬다”는 반응이 나옴
  • 이 사례가 흥미로운 이유는 도구 자체보다 질문이 더 세기 때문임

    • 왜 이런 기본적인 불편함을 일선 공무원이 퇴근 후 시간을 쪼개 해결해야 했냐는 것
    • 개인의 헌신을 칭찬하는 미담으로 끝내기엔, 공공 행정 시스템이 너무 오래 방치한 문제처럼 보임
    • 기사도 이 지점을 짚음. 이건 한 사람의 능력담이 아니라 정부 데이터 접근성의 구조 문제라는 얘기임
  • 법제처에는 데이터가 없어서 문제가 생긴 게 아님. 오히려 데이터는 엄청 많음

    • 대한민국 현행 법률만 1,600개 이상임
    • 행정규칙은 1만 개 이상이고, 대법원부터 관세청까지 이어지는 판례도 방대하게 모여 있음
    • 그런데 개발자 관점에서는 이걸 자동화하거나 AI가 호출하기 좋은 방식으로 쓰기가 어렵다는 게 핵심임

중요

> 문제는 “데이터가 부족하다”가 아니라 “AI와 개발자가 다루기 좋은 구조가 아니다” 쪽에 가까움. 사람 눈으로 검색하는 사이트와 AI가 호출하는 데이터 인프라는 완전히 다른 설계가 필요함.

  • 업계 관계자의 표현이 꽤 직설적임

    • “공무원이 MCP를 만드는 것만으로도 천지개벽”이라는 반응이 나옴
    • 동시에 “애초에 법제처가 머신리더블하게 만들어 놨으면 됐다”는 지적도 따라붙음
    • 결국 AI 시대의 공공 데이터는 PDF, HWP, 웹 페이지로 ‘열람 가능’한 수준을 넘어 API나 구조화된 형태로 ‘처리 가능’해야 한다는 얘기임
  • 정부도 AI에 돈을 안 쓰는 건 아님. 오히려 예산은 크게 늘었음

    • 올해 정부 AI 예산은 9조 9,000억 원으로, 전년 대비 3배 이상 증가함
    • 행정안전부는 ‘AI 민주정부’를 내걸고 1조 원 넘는 예산을 투입함
    • 지난 3월부터는 공무원들이 행정 내부망에서 민간 AI를 쓸 수 있게 하는 ‘범정부 AI 공통기반’도 가동됨
  • 그런데 현장에서는 여전히 법령 검색 같은 기초 업무부터 답답함이 남아 있음

    • AI 예산과 플랫폼 도입은 커졌지만, 정작 AI가 읽어야 할 데이터의 품질과 접근성은 뒤처져 있다는 뜻임
    • 실무자는 문서를 찾고, 열고, 복사하고, 비교하는 반복 작업에 계속 시간을 쓰게 됨
    • AI 도입의 병목이 모델 성능이 아니라 데이터 구조에서 터지는 전형적인 케이스임
  • 이 공무원은 차관급 인사들 앞에서 “AI는 위에서부터 혁신이 이뤄져야 한다”는 취지로 말한 것으로 전해짐

    • 개인이 도구를 만드는 것도 중요하지만, 지속 가능한 변화는 제도와 인프라가 바뀌어야 가능하다는 의미로 읽힘
    • 공공기관마다 개인 개발자가 알아서 우회 도구를 만드는 방식은 확장성이 없음
    • 정부가 진짜 AI 행정을 원한다면, 현장의 데이터를 처음부터 AI가 쓸 수 있게 다시 설계해야 함

기술 맥락

  • 이번 사례의 핵심 선택은 법령·판례 데이터를 MCP로 감싸 AI가 호출할 수 있게 만든 거예요. 그냥 웹사이트 검색창을 사람이 누르는 방식으로는 대규모 언어 모델이 안정적으로 비교·검색하기 어렵거든요.

  • HWP 변환 도구가 같이 주목받은 이유도 비슷해요. 공공기관 문서는 사람이 읽기엔 익숙하지만, AI가 문단 구조와 표, 서식을 해석하려면 중간 변환 과정이 필요해요. 문서가 많을수록 이 차이가 실무 생산성 차이로 바로 튀어나와요.

  • 법제처에 1,600개 이상 법률과 1만 개 이상 행정규칙이 모여 있다는 건 데이터 규모 자체는 충분하다는 뜻이에요. 하지만 AI 시대에는 ‘어디엔가 있다’보다 ‘기계가 정확히 찾고 조합할 수 있다’가 더 중요해요.

  • 그래서 이 이슈는 모델을 어떤 걸 쓰느냐보다 데이터 접근 계층을 어떻게 설계하느냐에 가까워요. 정부가 AI 예산을 크게 늘려도, 원천 데이터가 구조화돼 있지 않으면 현장에서는 계속 수동 검색과 복붙이 남게 돼요.

이건 ‘능력 있는 공무원 한 명’ 이야기가 아니라 공공 데이터 인프라의 설계 실패에 가까워 보여. AI 예산을 크게 늘리는 것보다 먼저, 기계가 읽고 호출할 수 있는 행정 데이터 구조를 만드는 게 실무자 입장에선 훨씬 체감될 수 있음.

댓글

댓글

댓글을 불러오는 중...

open-source

월러스, AI 에이전트용 메모리 SDK ‘멤월’ 공개

수이 기반 스토리지 프로토콜 월러스가 AI 에이전트용 메모리 레이어이자 SDK인 멤월을 출시했다. 핵심은 에이전트 메모리를 특정 모델이나 공급업체에 묶지 않고, 검증 가능하고 이동 가능한 데이터 레이어로 만들겠다는 것이다.

open-source

한컴, PDF 접근성 규제 대응용 오픈소스 솔루션 공개

한컴이 미국·유럽에서 강화되는 PDF 접근성 규제에 대응할 수 있는 오픈소스 솔루션을 공개했어. 접근성 태그가 없는 PDF 때문에 스크린 리더가 문서 구조를 못 읽는 문제를 겨냥했고, 올 2분기에는 PDF/UA 표준 수준의 상용 솔루션도 내놓을 예정이야.

open-source

Zig이 LLM 기여를 막는 이유: “PR이 아니라 사람에 베팅한다”

Zig 프로젝트는 이슈, PR, 버그 트래커 댓글까지 LLM 사용을 금지하는 강한 정책을 유지하고 있다. 핵심 논리는 코드 품질 문제가 아니라, 오픈소스 리뷰가 새 기여자를 키우는 투자라는 점이다. LLM이 만든 완성도 높은 PR은 당장 코드가 좋아 보여도 프로젝트가 신뢰할 사람을 얻는 과정과는 맞지 않는다는 주장이다.

open-source

한컴, PDF 접근성 태그를 자동 생성하는 AI 도구 오픈소스로 공개

한컴이 ‘오픈데이터로더 PDF’에 PDF 접근성 태그 자동 생성 기능을 넣고 오픈소스로 공개했어. AI가 제목, 표, 목록, 이미지 같은 문서 구조를 분석해 PDF 내부에 태그로 반영하는 방식이고, 온프레미스 실행과 파이썬·자바·명령줄 도구 연동을 지원해 기업 대량 문서 전환을 노린다는 내용이야.

open-source

한컴, PDF 접근성 태그 자동 생성 AI를 오픈소스로 공개

한컴이 PDF에 접근성 태그를 자동으로 넣어주는 AI 기능을 오픈소스로 공개했어. 기업·공공기관이 대량 PDF를 비용 부담 없이 바꾸고, 미국·유럽·국내 접근성 규제 대응까지 노릴 수 있는 카드야.