---
title: "회사 코드에 AI가 얼마나 들어갔나 추적하는 오픈소스 'PatchTrack' 공개…오픈소스 PR 40.7%에서 챗GPT 흔적 발견"
published: 2026-04-20T14:05:01.921Z
canonical: https://jeff.news/article/1838
---
# 회사 코드에 AI가 얼마나 들어갔나 추적하는 오픈소스 'PatchTrack' 공개…오픈소스 PR 40.7%에서 챗GPT 흔적 발견

네바다대학교 연구팀이 챗GPT 제안 코드가 실제 소프트웨어에 반영된 비율을 토큰 단위로 측정하는 도구 PatchTrack을 공개했다. 머지된 오픈소스 PR 285건 분석 결과 40.7%에서 챗GPT 코드가 실제 반영됐고, 채택된 코드의 중앙값은 AI 제안의 25%에 불과했다. 거부된 코드의 주요 사유는 품질이 아닌 프로젝트 관습/아키텍처 불일치로 나타났다.

- 네바다대학교 라스베이거스 연구팀이 **챗GPT가 제안한 코드가 실제 소프트웨어에 얼마나 녹아들어갔는지를 자동 추적하는 도구 '패치트랙(PatchTrack)'**을 공개함
  - 단순히 "AI 썼냐"가 아니라 **AI가 생성한 코드 중 실제 몇 줄이 제품에 들어갔는지를 토큰 단위로 측정**
  - 2026년 4월 arXiv 논문 "PatchTrack: A Comprehensive Analysis of ChatGPT's Influence on Pull Request Outcomes"
  - 분류 정확도 97.5%, 도구는 오픈소스 공개

### 숫자로 드러난 AI 침투율
- 오픈소스 프로젝트 255개, 338건 PR 수집, 그중 머지된 285건을 분석
- **40.7%(116건)에서 챗GPT 제안 코드가 실제로 반영됨** — 10개 중 4개 PR에 AI 흔적
  - 나머지는 코드 거부(22.1%) 또는 챗GPT가 코드 대신 개념 설명/방법론만 제공(37.2%)
- 연구팀은 **'자기 공개 챗GPT 사용(SACU)'** 케이스만 집계 — 개발자가 PR 코멘트나 커밋 메시지에 "챗GPT 썼음"이라고 스스로 밝힌 경우만
  - 즉 이 40.7%는 **수면 위로 드러난 의존도의 최솟값**이라는 뜻

> [!IMPORTANT]
> 채택된 116건에서 챗GPT 코드 중 실제 반영된 비율의 **중앙값은 25%에 불과**함. 평균적으로 AI가 내놓은 코드의 4분의 3은 사람 개발자가 걸러내거나 다시 씀

### 어떻게 쓰였나 — 4가지 반복 패턴
- 심층 분석 89건에서 발견한 AI 코드 채택 패턴
  - **반복적 정제(Iterative Refinement)** 26건 — AI 코드를 뼈대 삼아 팀 코딩 규칙에 맞게 계속 고쳐나감
  - **구조적 통합(Structural Integration)** 19건 — AI 코드 전체 구조를 프로젝트에 맞게 재편
  - **선택적 추출(Selective Extraction)** 18건 — AI 코드에서 필요한 부분만 잘라 씀
  - **그대로 붙여넣기** 3건에 그침

### 코드 안 써도 개발자 판단은 이미 바뀜
- 챗GPT가 코드 조각을 만들지 않고 텍스트 설명만 준 84건을 분석해도 개발자들은 AI 조언대로 설계를 바꾸거나 문서를 수정함
  - 44건 — 프로그래밍 개념/설계 원칙을 물어 답변 기반으로 코드 구조 개선
  - 23건 — AI가 제안한 문구/용어를 코멘트·문서에 반영
  - 한 사례에서는 "깃에서 파일 이름 변경하는 방법"을 챗GPT에 물어, AI 조언대로 커밋 방식을 바꿔 파일 rename이 삭제-추가가 아닌 정확한 rename으로 기록되게 함
- 결론 — **AI가 코드를 한 줄도 안 썼어도 개발자의 사고 자체를 변경함**

### AI 코드가 거부된 이유가 더 불편함
- 거부된 56건 분석 결과, **거부 사유 1위는 "코드 품질 나빠서"가 아님**
  - 프로젝트 코딩 관습이나 **아키텍처와 맞지 않아서**가 가장 흔함
- 실제 케이스
  - 챗GPT가 정규표현식을 제안했지만 리뷰어가 "우리 프레임워크 공식 방식대로 하자"며 폐기
  - 챗GPT가 성능 개선을 제안했지만 리뷰어들이 "단기 수선이 아니라 장기적 근본 해결 필요"라며 거부

> [!WARNING]
> 연구팀의 해석 — 지금 AI가 개발자를 완전히 대체 못 하는 거의 유일한 이유는 **'프로젝트 맥락 이해 능력의 부재'**. AI가 그 능력을 갖추는 순간 현재 거부되는 코드의 상당수가 더 이상 거부되지 않을 수 있음

- 패치트랙은 AI 영향력을 '코드 생성'이라는 좁은 프레임을 넘어 **문제 접근 방식, 팀 의사결정 방식까지** 확장해 볼 수 있게 만든 최초의 실증 도구
  - 연구팀은 도구를 오픈소스로 풀어 향후 더 광범위한 AI 침투 분석이 가능하도록 함
  - AI 사용을 숨긴 케이스는 아예 집계되지 않았기 때문에 실제 수치는 훨씬 높을 가능성

---

## 기술 맥락

패치트랙이 단순 '깃 블레임 AI 버전'이 아닌 이유는 **토큰 단위 비교**를 한다는 점이에요. 챗GPT 응답 전체와 최종 커밋 diff를 토큰 레벨에서 정렬해 "이 블록은 AI 원문 그대로", "이 블록은 AI 제안을 기반으로 변형됨" 같은 라벨을 달거든요. 그래서 평균 25% 중앙값이라는 숫자가 나올 수 있는 거예요 — 사람이 눈으로 판단하면 절대 나올 수 없는 정밀도죠.

연구 설계에서 주의할 부분은 **SACU(Self-Admitted ChatGPT Usage)**라는 조건이에요. 오픈소스에서 PR 코멘트나 커밋 메시지에 "ChatGPT 썼음"이라고 명시적으로 적은 케이스만 모았다는 뜻인데, 이건 데이터 수집의 엄밀성 때문에 필요한 제한이지만 동시에 큰 맹점이에요. 실무에서 "AI 썼다"고 굳이 적는 개발자는 일부일 뿐이라 실제 침투율은 40.7%보다 훨씬 높을 게 뻔하죠.

거부 사유 분석이 진짜 흥미로워요. 챗GPT 코드가 "기술적으로 틀려서" 거부되는 게 아니라 "팀 관습과 달라서" 거부된다는 건, 현재 LLM의 약점이 추론이나 알고리즘이 아니라 **조직 컨텍스트 이해**라는 뜻이에요. 이게 바로 요즘 코드 에이전트들이 repo 전체를 context로 먹이거나 코딩 스타일 가이드를 학습시키는 방향으로 가는 이유이기도 해요.

도구가 Apache 오픈소스로 풀렸다는 점도 주목할 만해요. 이제 기업들이 자사 내부 리포에 패치트랙을 돌려 "우리 회사 AI 침투율"을 측정할 수 있거든요. AI 가드레일이나 라이선스 리스크 감사 관점에서도 쓸 수 있는 레버리지가 생긴 거예요.

## 핵심 포인트

- PatchTrack은 챗GPT 응답과 최종 커밋을 토큰 단위로 비교해 AI 코드 반영률을 자동 측정, 분류 정확도 97.5%
- 머지된 285건 중 40.7%에 AI 코드 흔적, 단 이는 개발자가 '챗GPT 썼다'고 스스로 밝힌 SACU 케이스만 집계한 최솟값
- AI 코드 4분의 3은 사람이 다시 씀 — 반영 비율 중앙값 25%, 그대로 붙여넣기는 3건뿐
- AI가 코드 없이 설명만 해도 개발자는 사고방식과 설계를 바꿈 (44건에서 개념 설명 기반 재설계 확인)
- AI 코드 거부 1위 사유는 품질이 아니라 '프로젝트 코딩 관습/아키텍처 불일치' — LLM의 약점은 조직 컨텍스트 이해

## 인사이트

PatchTrack의 가치는 40.7%라는 숫자 자체보다 '코드 거부 사유 분석'에 있다. 지금 LLM이 개발자를 완전 대체 못 하는 병목이 기술 역량이 아니라 조직 컨텍스트 이해라는 걸 실증한 것이라, 코드 에이전트가 repo 전체를 컨텍스트로 먹이는 방향으로 가는 이유가 여기서 드러난다.
