---
title: "AI 코딩 능력 그래프 보고 패닉할 필요는 아직 없다는 반론"
published: 2026-05-10T21:19:25.000Z
canonical: https://jeff.news/article/2624
---
# AI 코딩 능력 그래프 보고 패닉할 필요는 아직 없다는 반론

게리 마커스는 METR의 ‘시간 지평(time horizon)’ 그래프가 AI가 범용 초지능에 가까워졌다는 증거처럼 소비되는 걸 비판해. 그래프는 소프트웨어 개발 과제에서 50% 성공 기준으로 모델이 어느 정도 긴 작업을 해내는지 보여줄 뿐, 95%나 99% 신뢰성, 범용 지능, 실제 직무 대체를 증명하진 않는다는 얘기야.

- METR의 최신 ‘시간 지평(time horizon)’ 그래프가 AI 패닉을 다시 불붙였음
  - 그래프는 프런티어 모델이 인간 소프트웨어 엔지니어 기준으로 어느 정도 긴 개발 작업을 해낼 수 있는지를 시간 단위로 보여줌
  - 예전엔 1분짜리 작업, 그다음 2분, 4분, 8분 수준이었다면 이제는 16시간짜리 작업까지 왔다는 식으로 읽힘

- 근데 여기서 제일 중요한 단어는 ‘50% 성공률’임
  - METR 트윗에서 말하는 기준은 100%, 99%, 90%가 아니라 50% 성공임
  - 80% 성공률 버전 그래프도 있는데, 모양은 비슷해도 성능 수준은 훨씬 낮게 보임
  - 생성형 AI의 가장 큰 문제는 늘 신뢰성이었는데, 50% 성공 그래프는 그 문제를 거의 건드리지 못함

> [!IMPORTANT]
> 50% 성공률은 데모나 벤치마크 얘기로는 흥미롭지만, 실무 자동화 기준으로는 꽤 낮은 바임. 운영 시스템에 넣을 때는 95%, 99%에서 어떻게 무너지는지가 훨씬 중요함.

- Mythos가 METR 벤치마크를 ‘깼다’는 말도 반쯤은 과장이라는 주장임
  - 준비된 과제 대부분을 50% 기준으로 풀었다면 벤치마크가 포화된 건 맞을 수 있음
  - 하지만 80%, 95% 성공률을 요구하면 아직 남은 여지가 크고, 실제 개발 업무는 하루 이틀짜리 태스크가 아니라 몇 달, 몇 년짜리 프로젝트 관리까지 포함함

- 이 그래프는 ‘소프트웨어 개발 작업’만 다룸
  - Mythos가 16시간짜리 코딩 작업 일부를 잘한다고 해서, 인간이 16시간 안에 하는 대부분의 일을 잘한다는 뜻은 아님
  - 예를 들어 아무도 본 적 없는 2시간짜리 영화를 보고 핵심 플롯을 자연스럽게 토론하는 능력 같은 건 완전히 다른 문제임

- 성능 향상이 어디서 왔는지도 중요함
  - 마커스는 최근 발전의 상당 부분이 순수 스케일링보다는 코드 인터프리터, 검증기, 실행 하네스 같은 상징적 도구 결합에서 나왔을 가능성이 크다고 봄
  - 코딩과 수학은 정답 확인이 쉬워서 이런 도구가 특히 잘 먹힘
  - 반대로 환각 감소, 세계 모델 기반 추론, 애매한 현실 문제 해결은 같은 방식으로 쉽게 좋아진다고 장담하기 어려움

- 지수 그래프를 그대로 미래에 밀어붙이는 것도 위험함
  - 글에서는 ‘아기가 처음 몇 달 동안 몸무게가 두 배가 됐다고 대학 갈 때까지 계속 두 배씩 커지진 않는다’는 비유를 듦
  - 에너지, 칩, 벤치마크 최적화, 검증 가능한 문제의 한계 같은 병목이 언제든 등장할 수 있음

- 결론은 ‘AI가 코딩을 잘하게 된 건 맞지만, 초지능 패닉은 아직 이르다’에 가까움
  - Mythos는 이전 모델보다 코딩에서 훨씬 강할 수 있음
  - 다만 95%나 99% 성공률 데이터가 없고, 이 곡선이 계속 이어질지도 모름
  - 원격 노동 전체를 얼마나 대체할지도 별개 문제라서, 실제 완전 대체 가능한 인간 직무 수는 당분간 작을 거라는 관측임

---
## 기술 맥락

- 이 논쟁의 핵심은 ‘모델이 더 똑똑해졌나’가 아니라 ‘무슨 기준으로 똑똑하다고 말하나’예요. 50% 성공률은 연구 그래프에서는 신호가 될 수 있지만, 개발팀이 자동화에 태우려면 실패 절반을 누가 감당할지부터 봐야 하거든요.

- 코딩 벤치마크가 특히 잘 오르는 이유도 따로 있어요. 코드는 실행해볼 수 있고, 테스트를 붙일 수 있고, 에러 메시지로 되먹임을 줄 수 있어서 모델 혼자 추론하는 것보다 훨씬 유리한 환경이에요.

- 그래서 이 글은 LLM 스케일링만으로 모든 지능 문제가 풀린다는 해석을 경계해요. 코드 인터프리터나 검증기 같은 외부 도구가 성능을 끌어올렸다면, 같은 패턴이 법률 판단, 제품 전략, 물리 작업 같은 덜 정형화된 일에도 그대로 통할지는 별도로 봐야 해요.

- 실무적으로는 ‘AI가 몇 시간짜리 태스크를 처리하나’보다 ‘실패했을 때 감지하고 복구하는 구조가 있나’가 더 중요해요. 개발 자동화는 모델 성능 그래프가 아니라 테스트, 리뷰, 롤백, 관측성까지 묶인 시스템 문제에 가깝거든요.

## 핵심 포인트

- METR 그래프의 핵심 기준은 50% 성공률이라 신뢰성 평가로 보기 어렵다
- 측정 대상은 소프트웨어 개발 과제이지 범용 지능 전체가 아니다
- 최근 성능 향상은 순수 모델 스케일링보다 코드 인터프리터, 검증, 하네스 같은 상징적 도구 결합의 영향일 수 있다
- 초기 지표가 두 배씩 늘었다고 무한히 지수 성장한다고 보는 건 위험하다

## 인사이트

개발자 입장에선 ‘AI가 코딩을 얼마나 잘하냐’보다 ‘얼마나 믿고 맡길 수 있냐’가 더 중요함. 50% 성공 그래프를 보고 채용, 아키텍처, 자동화 전략을 짜면 꽤 비싼 착시를 살 수 있음.