AI 코딩 능력 그래프 보고 패닉할 필요는 아직 없다는 반론

ai-ml 2026-05-10 약 5분

 tags

#llm #benchmark #coding #verification #agi

vote

북마크

게리 마커스는 METR의 ‘시간 지평(time horizon)’ 그래프가 AI가 범용 초지능에 가까워졌다는 증거처럼 소비되는 걸 비판해. 그래프는 소프트웨어 개발 과제에서 50% 성공 기준으로 모델이 어느 정도 긴 작업을 해내는지 보여줄 뿐, 95%나 99% 신뢰성, 범용 지능, 실제 직무 대체를 증명하진 않는다는 얘기야.

1
METR 그래프의 핵심 기준은 50% 성공률이라 신뢰성 평가로 보기 어렵다
2
측정 대상은 소프트웨어 개발 과제이지 범용 지능 전체가 아니다
3
최근 성능 향상은 순수 모델 스케일링보다 코드 인터프리터, 검증, 하네스 같은 상징적 도구 결합의 영향일 수 있다
4
초기 지표가 두 배씩 늘었다고 무한히 지수 성장한다고 보는 건 위험하다

METR의 최신 ‘시간 지평(time horizon)’ 그래프가 AI 패닉을 다시 불붙였음
- 그래프는 프런티어 모델이 인간 소프트웨어 엔지니어 기준으로 어느 정도 긴 개발 작업을 해낼 수 있는지를 시간 단위로 보여줌
- 예전엔 1분짜리 작업, 그다음 2분, 4분, 8분 수준이었다면 이제는 16시간짜리 작업까지 왔다는 식으로 읽힘
근데 여기서 제일 중요한 단어는 ‘50% 성공률’임
- METR 트윗에서 말하는 기준은 100%, 99%, 90%가 아니라 50% 성공임
- 80% 성공률 버전 그래프도 있는데, 모양은 비슷해도 성능 수준은 훨씬 낮게 보임
- 생성형 AI의 가장 큰 문제는 늘 신뢰성이었는데, 50% 성공 그래프는 그 문제를 거의 건드리지 못함

❗중요

> 50% 성공률은 데모나 벤치마크 얘기로는 흥미롭지만, 실무 자동화 기준으로는 꽤 낮은 바임. 운영 시스템에 넣을 때는 95%, 99%에서 어떻게 무너지는지가 훨씬 중요함.

Mythos가 METR 벤치마크를 ‘깼다’는 말도 반쯤은 과장이라는 주장임
- 준비된 과제 대부분을 50% 기준으로 풀었다면 벤치마크가 포화된 건 맞을 수 있음
- 하지만 80%, 95% 성공률을 요구하면 아직 남은 여지가 크고, 실제 개발 업무는 하루 이틀짜리 태스크가 아니라 몇 달, 몇 년짜리 프로젝트 관리까지 포함함
이 그래프는 ‘소프트웨어 개발 작업’만 다룸
- Mythos가 16시간짜리 코딩 작업 일부를 잘한다고 해서, 인간이 16시간 안에 하는 대부분의 일을 잘한다는 뜻은 아님
- 예를 들어 아무도 본 적 없는 2시간짜리 영화를 보고 핵심 플롯을 자연스럽게 토론하는 능력 같은 건 완전히 다른 문제임
성능 향상이 어디서 왔는지도 중요함
- 마커스는 최근 발전의 상당 부분이 순수 스케일링보다는 코드 인터프리터, 검증기, 실행 하네스 같은 상징적 도구 결합에서 나왔을 가능성이 크다고 봄
- 코딩과 수학은 정답 확인이 쉬워서 이런 도구가 특히 잘 먹힘
- 반대로 환각 감소, 세계 모델 기반 추론, 애매한 현실 문제 해결은 같은 방식으로 쉽게 좋아진다고 장담하기 어려움
지수 그래프를 그대로 미래에 밀어붙이는 것도 위험함
- 글에서는 ‘아기가 처음 몇 달 동안 몸무게가 두 배가 됐다고 대학 갈 때까지 계속 두 배씩 커지진 않는다’는 비유를 듦
- 에너지, 칩, 벤치마크 최적화, 검증 가능한 문제의 한계 같은 병목이 언제든 등장할 수 있음
결론은 ‘AI가 코딩을 잘하게 된 건 맞지만, 초지능 패닉은 아직 이르다’에 가까움
- Mythos는 이전 모델보다 코딩에서 훨씬 강할 수 있음
- 다만 95%나 99% 성공률 데이터가 없고, 이 곡선이 계속 이어질지도 모름
- 원격 노동 전체를 얼마나 대체할지도 별개 문제라서, 실제 완전 대체 가능한 인간 직무 수는 당분간 작을 거라는 관측임

기술 맥락

이 논쟁의 핵심은 ‘모델이 더 똑똑해졌나’가 아니라 ‘무슨 기준으로 똑똑하다고 말하나’예요. 50% 성공률은 연구 그래프에서는 신호가 될 수 있지만, 개발팀이 자동화에 태우려면 실패 절반을 누가 감당할지부터 봐야 하거든요.
코딩 벤치마크가 특히 잘 오르는 이유도 따로 있어요. 코드는 실행해볼 수 있고, 테스트를 붙일 수 있고, 에러 메시지로 되먹임을 줄 수 있어서 모델 혼자 추론하는 것보다 훨씬 유리한 환경이에요.
그래서 이 글은 LLM 스케일링만으로 모든 지능 문제가 풀린다는 해석을 경계해요. 코드 인터프리터나 검증기 같은 외부 도구가 성능을 끌어올렸다면, 같은 패턴이 법률 판단, 제품 전략, 물리 작업 같은 덜 정형화된 일에도 그대로 통할지는 별도로 봐야 해요.
실무적으로는 ‘AI가 몇 시간짜리 태스크를 처리하나’보다 ‘실패했을 때 감지하고 복구하는 구조가 있나’가 더 중요해요. 개발 자동화는 모델 성능 그래프가 아니라 테스트, 리뷰, 롤백, 관측성까지 묶인 시스템 문제에 가깝거든요.

개발자 입장에선 ‘AI가 코딩을 얼마나 잘하냐’보다 ‘얼마나 믿고 맡길 수 있냐’가 더 중요함. 50% 성공 그래프를 보고 채용, 아키텍처, 자동화 전략을 짜면 꽤 비싼 착시를 살 수 있음.

이전 기사 (P)

댓글을 불러오는 중...

ai-ml 2026-06-24

오픈AI, 브로드컴과 만든 첫 자체 추론 칩 ‘할라페뇨’ 공개

오픈AI가 브로드컴과 함께 만든 첫 자체 추론 프로세서 ‘할라페뇨’를 공개했다. 아직 테스트 단계지만, 실시간 코딩 모델 같은 추론 워크로드에서 기존 최고 수준 대안보다 전력 대비 성능이 크게 좋다는 초기 결과를 내세웠다.

ai-ml 2026-06-24

가트너 “네오클라우드, 2030년 AI 클라우드 시장 20% 먹는다”

생성형 AI 확산으로 GPU 기반 고성능 컴퓨팅 수요가 폭증하면서 AI 전용 클라우드 사업자인 네오클라우드가 커지고 있다는 분석이 나왔어. 가트너는 2030년 약 2,670억 달러 규모 AI 클라우드 시장에서 네오클라우드가 20%를 차지할 수 있다고 봤어. GPU 확보, 가격 경쟁력, 데이터 주권 대응이 핵심 포인트야.

ai-ml 2026-06-24

스페이스X, 오픈소스 AI 스타트업에 초대형 컴퓨팅 파워 판다

리플렉션 AI가 스페이스X의 대형 데이터센터 인프라를 쓰기 위해 2029년까지 최대 63억달러 규모 계약을 맺었다는 내용이다. 월 1억5000만달러를 내고 엔비디아 GB300 기반 컴퓨팅 자원을 확보하는 구조이며, 스페이스X는 남는 AI 인프라를 외부 고객에게 파는 플랫폼 사업으로 확장하려는 흐름을 보인다. 오픈소스 AI 모델을 내세우는 리플렉션 AI가 정부·안보 시장에서 빠르게 커지고 있다는 점도 포인트다.

ai-ml 2026-06-24

AI가 청소년의 ‘생각 훈련’을 건너뛰게 만든다는 경고

이 글은 생성형 AI가 청소년과 주니어에게 편리한 도구를 넘어 사고력 발달을 약화시킬 수 있다는 우려를 다뤄. 핵심은 AI 사용 자체가 문제라기보다, AI가 단일한 관계와 정보 통로가 되고 글쓰기·판단·고민의 과정을 대신해버릴 때 인지 훈련 기회가 사라진다는 점이야.

ai-ml 2026-06-24

성남시, AI로 고독사 위험과 고령자 주차 문제를 같이 실증한다

성남시니어산업혁신센터가 AI 돌봄 자동화 플랫폼과 AI 스마트 주차관리 시스템의 실증기관으로 선정됐어. 각각 14억2500만 원, 30억 원 규모 사업이고, 고령자 돌봄과 교통약자 주차 편의라는 생활밀착형 문제를 AI로 풀어보겠다는 내용이야.

AI 코딩 능력 그래프 보고 패닉할 필요는 아직 없다는 반론

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

AI 코딩 능력 그래프 보고 패닉할 필요는 아직 없다는 반론

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사