본문으로 건너뛰기
피드

LLM에게 규칙을 지키라고 하지 말고, 규칙을 검사하는 코드를 짜라고 시켜라

general 약 4분

LLM은 확률적이라 매번 일관되게 규칙을 지킬 수 없으니, 반복적으로 지켜야 하는 정책은 린트/테스트/타입 시스템 같은 결정론적 도구로 검증하고, 그 도구를 LLM에게 만들게 하라는 제안.

  • 1

    수학 증명에서 LLM+Lean 조합으로 에르되시 미해결 문제를 풀었던 사례 인용

  • 2

    한 번만 하면 되는 일 vs 반복 정책을 구분하는 것이 핵심

  • 3

    AGENTS.md나 프롬프트로는 LLM의 확률적 본성을 극복할 수 없음

  • 4

    타입 시스템, 커스텀 린트, 코드 스캔 테스트를 빌드 체인에 넣어라

  • 핵심 주장은 간단명료함: LLM은 결정론적(deterministic)이지 않으니까, 매번 일관되게 지켜야 하는 규칙은 LLM한테 맡기지 말고 결정론적 도구(린트, 테스트, 타입 시스템)를 만들어서 빌드 체인에 넣어라. 그리고 그 도구를 LLM한테 짜라고 시켜라
  • 수학 쪽에서 먼저 이 문제를 풀었다는 비유가 깔끔함. 테런스 타오(필즈상 수상자)가 2024년 9월에 LLM을 "그럭저럭 무능하지는 않은 대학원생을 지도하는 것 같다"고 표현했는데, 수학 증명에서 LLM이 그럴듯하지만 미묘하게 틀린 논증을 만들어내는 게 위험하다는 거임
  • 수학계의 해법: 2026년 1월, LLM(ChatGPT)으로 증명 개요를 만들고 → Aristotle이라는 도구로 논리적 결함을 잡아서 Lean 증명으로 변환하고 → 다시 ChatGPT로 논문 형식으로 작성하는 방식으로, 에르되시(Paul Erdos)가 제시했던 미해결 문제를 최초로 풀었음. LLM이 만들고, 결정론적 시스템이 검증하는 구조

소프트웨어 개발에서의 결정론

  • 배포 스크립트를 비유로 씀: 수동 배포보다 스크립트가 좋은 진짜 이유는 시간 절약이 아니라 신뢰성. 스크립트는 매번 똑같은 결과를 내니까
  • LLM은 인간과 프로그램 사이 어딘가에 있음. 지치거나 지루해하지는 않지만, 매번 같은 결과를 내지는 못함. 이건 LLM의 근본 작동 방식(다음 토큰의 확률 분포에서 샘플링)에서 비롯되는 거라 프롬프트를 아무리 잘 써도 해결 안 됨
  • "한 번만 하면 되는 일"과 "반복적으로 지켜야 하는 일"을 구분하는 게 핵심 프레임워크임:
    • 한 번: 데이터 마이그레이션, 로그인 화면 만들기, 프레젠테이션 차트 생성 → LLM이 해도 됨
    • 반복: SQL 인젝션 방어, 네이밍 컨벤션, 로그에 스택트레이스 포함, 파일 finally 블록에서 닫기 → LLM이 100% 지킬 거라 믿으면 안 됨

중요

> AGENTS.md에 "인젝션 공격을 막아라"고 써놓거나 Claude Skill에 문자열 이스케이프 방법을 정의해놔도, LLM의 확률적 본성 때문에 모든 문자열이 반드시 sanitize된다는 결정론적 확신은 얻을 수 없음. 더 나은 프롬프팅이 LLM의 근본적 한계를 바꿀 수는 없다는 것.

해법: 코드로 코드를 검사하라

  • 구체적 방법들을 제시함:
    • 타입 시스템 활용: UserStringSanitizedString 타입을 분리해서 컴파일러가 강제하게 만들기
    • 커스텀 린트: 네이밍 컨벤션이나 레거시 라이브러리 사용 금지를 자동 검사
    • 코드 스캔 유닛 테스트: 승인된 라이브러리만 사용되는지 코드를 스캔
  • 이런 도구를 만드는 것 자체가 "한 번만 하면 되는 일"이라 LLM한테 시키기에 딱 좋다는 게 결론. LLM에게 규칙을 따르라고 하지 말고, 규칙을 검사하는 프로그램을 만들라고 시키고, 그걸 빌드 파이프라인에 넣어라
  • 저자 본인은 커밋 전에 모든 코드를 한 줄씩 리뷰한다고 하면서도, 모든 사람이 그러지는 않는다는 걸 인정함. 그래서 더더욱 결정론적 검증 도구가 필요하다는 논지

LLM 시대에 결정론적 도구의 가치가 오히려 올라간다는 역설적이지만 설득력 있는 주장. 시니어 개발자라면 공감할 포인트가 많음.

댓글

댓글

댓글을 불러오는 중...

general

뉴욕타임스·디애틀랜틱·USA투데이에 Wayback Machine 보존 허용을 요구하는 청원

Save the Archive 청원은 주요 언론사가 Internet Archive의 Wayback Machine 보존을 막지 말고 협력해야 한다고 요구함. 특히 뉴욕타임스, 디애틀랜틱, USA투데이가 AI 우려를 이유로 보존을 제한하는 흐름을 비판하면서, 오히려 생성형 AI 시대일수록 독립적인 웹 아카이브가 더 중요하다고 주장함.

general

검색과 인공지능이 만드는 ‘감시형 웹의 벽정원’

이 글은 오픈 웹이 사라지는 이유를 출판의 문제가 아니라 발견 가능성의 문제로 봐. 구글 검색, 브라우저, 광고, 운영체제, 인공지능 어시스턴트, 신원 확인 인프라가 합쳐지면서 측정되고 수익화되는 웹만 더 잘 보이게 된다는 주장이다.

general

이 대통령, AI ‘초과세수 국민배당’ 논란에 직접 반박

이재명 대통령이 김용범 정책실장의 ‘AI 국민배당금’ 발언을 둘러싼 논란에 직접 나섰다. 핵심은 기업의 초과이윤을 걷겠다는 얘기가 아니라, AI 산업 호황으로 국가에 초과세수가 생기면 그 재원을 국민에게 어떻게 돌려줄지 검토하자는 취지였다는 설명이다.

general

AI 데이터센터 붐에 캐터필러·이튼까지 반도체주처럼 움직이는 중

AI 투자 열풍이 엔비디아 같은 반도체주를 넘어 전력, 냉각, 발전 장비를 파는 전통 산업재 기업 주가까지 끌어올리고 있다는 내용이다. 데이터센터 증설이 물리 인프라 수요를 키우면서 S&P500 산업재 지수와 필라델피아 반도체지수의 45일 상관계수가 0.75까지 올라갔다.

general

시니어 개발자가 자기 전문성을 제대로 설명하지 못하는 이유

이 글은 시니어 개발자가 비즈니스와 자주 어긋나는 이유를 ‘복잡성 관리’와 ‘불확실성 감소’의 충돌로 설명한다. 사업팀은 시장 반응을 빨리 확인하고 싶어 하고, 시니어 개발자는 안정성과 유지보수성을 지키려 하니 같은 요청도 서로 다른 문제로 보인다는 얘기다.