---
title: "앤트로픽이 말하는 ‘AI가 AI를 만드는’ 순간은 얼마나 가까워졌나"
published: 2026-06-04T16:20:17.000Z
canonical: https://jeff.news/article/3712
---
# 앤트로픽이 말하는 ‘AI가 AI를 만드는’ 순간은 얼마나 가까워졌나

앤트로픽은 클로드가 이미 자사 AI 개발 과정의 상당 부분을 자동화하고 있으며, 엔지니어 1인당 코드 병합량이 2024년 대비 2026년 2분기에 8배 늘었다고 공개했어. 아직 AI가 스스로 후속 모델을 완전히 설계하는 재귀적 자기개선 단계는 아니지만, 코드 작성·실험 실행·연구 판단 일부에서 인간 역할이 점점 좁아지고 있다는 게 핵심이야. 동시에 이런 흐름이 계속되면 안전성 검증, 국제적 속도 조절, 인간 통제 문제가 훨씬 더 빡센 이슈가 된다고 봐야 함.

- 앤트로픽이 꽤 센 주장을 꺼냈음. 요지는 ‘AI가 AI 개발을 이미 빠르게 자동화하고 있고, 이 흐름이 계속되면 AI가 자기 후속 모델을 만드는 재귀적 자기개선(recursive self-improvement)까지 갈 수 있다’는 것임
  - 아직 그런 단계에 도달했다는 말은 아님
  - 다만 앤트로픽 내부 데이터와 공개 벤치마크를 보면, 준비 안 된 기관들이 생각하는 것보다 빨리 올 수 있다는 경고에 가까움

## 지금 AI 개발 루프가 어떻게 바뀌고 있나

- 예전에는 AI 개발의 모든 단계가 인간 중심이었음
  - 2021~2023년에는 그냥 일반 테크 회사처럼 사람이 노트북으로 코드와 문서를 작성했음
  - 2023~2025년에는 챗봇이 짧은 코드 조각을 만들어주고, 사람이 복붙하는 정도였음
  - 2025~2026년에는 코딩 에이전트가 파일 단위로 코드를 직접 작성·수정하기 시작했음
  - 지금은 에이전트가 코드를 실행하고, 다른 에이전트에게 몇 시간짜리 작업을 위임하는 단계까지 왔다고 함

- 앤트로픽이 보는 다음 단계는 ‘루프 닫기’임
  - 지금은 사람이 목표를 주고 클로드가 구현하거나 실험을 돌리는 구조임
  - 더 나아가면 에이전트가 모델을 직접 만들고 학습시키는 구조가 될 수 있음
  - 그러면 미래의 클로드가 클로드 자신을 계속 개선하는 그림이 나옴. 이게 말 그대로 재귀적 자기개선임

> [!IMPORTANT]
> 앤트로픽이 공개한 핵심 수치는 꽤 과감함. 2026년 5월 기준, 앤트로픽 코드베이스에 병합되는 코드의 80% 이상이 클로드가 작성한 코드라고 함.

## 공개 벤치마크에서 보이는 속도

- 모델이 혼자 안정적으로 처리할 수 있는 작업 길이가 빠르게 늘고 있음
  - 예전에는 약 7개월마다 두 배로 늘던 추세가, 최근에는 약 4개월마다 두 배로 빨라졌다고 함
  - 2024년 3월 클로드 오퍼스 3는 사람이 약 4분 걸리는 소프트웨어 작업을 처리하는 수준이었음
  - 1년 뒤 클로드 소넷 3.7은 약 1시간 30분짜리 작업을 처리했고, 그 다음 해 클로드 오퍼스 4.6은 12시간짜리 작업까지 처리했다고 함
  - 이 추세가 유지되면 올해 안에 며칠짜리 작업, 2027년에는 몇 주짜리 작업도 범위 안에 들어올 수 있다는 전망임

- 코딩 벤치마크도 거의 포화되는 흐름임
  - SWE-bench는 실제 오픈소스 코드베이스와 버그 리포트를 주고, 모델이 패치를 만들어 테스트를 통과해야 하는 평가임
  - 모델들은 2년 만에 낮은 한 자릿수 점수에서 거의 100%에 가까운 포화 상태로 올라갔다고 함
  - 연구 재현 벤치마크인 CORE-Bench도 2024년 약 20% 성공률에서 15개월 뒤 포화 상태까지 갔다고 함

- 장기 작업 평가 쪽도 측정 한계에 가까워졌다는 신호가 있음
  - METR은 클로드 미토스 프리뷰가 ‘최소 16시간’ 작업할 수 있었고, 새 과제가 없으면 측정 상한에 가까웠다고 평가했음
  - 이건 단순 질의응답 성능이 아니라, 긴 시간 동안 목표를 유지하고 작업을 이어가는 능력이 올라왔다는 뜻임

## 앤트로픽 내부에서는 무슨 일이 벌어지고 있나

- 앤트로픽은 프런티어 모델 개발을 크게 엔지니어링과 연구로 나눠 봄
  - 엔지니어링은 코드 작성, 인프라 구축, 학습 관리 같은 일임
  - 연구는 어떤 실험을 할지 정하고, 결과를 해석하고, 다음 아이디어를 고르는 일임
  - 클로드는 명확히 주어진 실험이나 구현은 매우 잘하지만, 목표 자체를 고르는 판단에서는 아직 큰 격차가 남아 있다고 함

- 코드 생산량 변화는 숫자로 확 튐
  - 클로드 코드가 2025년 2월 리서치 프리뷰로 나오기 전에는 클로드 작성 코드 비중이 낮은 한 자릿수였음
  - 2026년 5월에는 병합 코드의 80% 이상이 클로드 작성 코드가 됨
  - 2026년 2분기 기준 일반적인 엔지니어는 2024년보다 하루에 8배 많은 코드를 병합했다고 함
  - 다만 앤트로픽도 코드 라인 수는 품질보다 양을 재는 지표라 실제 생산성 향상을 과장할 수 있다고 인정함

- 직원 체감 생산성도 꽤 큼
  - 2026년 3월 앤트로픽 연구 조직 직원 130명을 대상으로 한 설문에서, 응답자 중앙값은 미토스 프리뷰 사용 시 AI 없이 할 때보다 약 4배 산출물을 냈다고 답함
  - 앤트로픽은 이 값도 실제보다 다소 높을 수 있다고 보지만, 핵심 업무가 몇 배 빨라졌다는 방향성은 타당하다고 봄

- 사람이 안 했을 잡일까지 AI가 밀어붙이는 사례도 나옴
  - 2026년 4월 클로드는 특정 API 오류 유형을 1000분의 1로 줄이는 800개 이상의 수정사항을 냈다고 함
  - 담당 엔지니어는 사람이 했다면 4년 걸렸을 작업이라고 추정했음
  - 남의 버그를 고치는 일은 맥락 전환이 빡세고 지루해서 사람이 미루기 쉬운데, 에이전트는 그런 작업을 대량으로 처리할 수 있다는 얘기임

## 코드 품질과 리뷰 병목

- 클로드가 쓰는 코드가 ‘동작한다’는 쪽의 증거는 꽤 강하다고 앤트로픽은 봄
  - 직원이 중간에 클로드 작업을 수정하거나 방향을 바꾸거나 넘겨받는 비율이 1년 동안 꾸준히 떨어졌다고 함
  - 가장 열린 형태의 작업에서도 2026년 5월 성공률이 76%에 도달했고, 6개월 만에 50%포인트 올랐다고 함

- 실제 장애 디버깅 사례도 있음
  - 정기 업그레이드 이후 수만 개의 학습 작업이 크래시 나는 상황이 있었음
  - 엔지니어가 클러스터 접근 권한과 약간의 텍스트 맥락만 주자, 클로드가 실행 중인 작업을 뒤지고 환경 설정을 하나씩 테스트했음
  - 결국 obscure한 디버깅 플래그 하나가 원인임을 찾아냈고, 약 2시간 만에 보통 2~3일 걸릴 일을 끝냈다고 함

- 코드 품질은 인간과 동급에 가까워지고 있다는 내부 인식이 있음
  - 2025년 말에는 클로드 코드가 인간 코드보다 떨어진다고 보는 사람이 많았음
  - 지금은 거의 동급이라고 보는 의견이 많고, 1년 안에 더 좋아질 것으로 예상한다고 함
  - 물론 이건 앤트로픽 내부 평가라 외부 검증은 필요함

- 그래서 리뷰 방식도 바뀌고 있음
  - 앤트로픽은 병합 전 자동 클로드 리뷰어가 버그, 보안 결함, 기타 문제를 찾게 하고 있음
  - 과거 claude.ai 운영 사고를 회고 분석했더니, 모든 변경사항에 자동 클로드 리뷰를 적용했다면 사고 원인 버그의 약 3분의 1을 프로덕션 전에 잡았을 것으로 추정함
  - 아이러니하게도 세계 최고 수준 엔지니어들이 놓친 버그를 클로드가 잡는 구도가 된 셈임

## 연구 자동화는 어디까지 왔나

- 잘 정의된 실험 최적화에서는 이미 인간을 넘어서는 구간이 있음
  - 앤트로픽은 모델 출시 때마다 작은 AI 모델 학습 코드를 주고, 정답 검사를 통과하면서 최대한 빠르게 만들라고 시킴
  - 2025년 5월 클로드 오퍼스 4는 시작 코드 대비 평균 약 3배 속도 향상을 냈음
  - 2026년 4월 클로드 미토스 프리뷰는 약 52배 속도 향상을 달성함
  - 숙련된 인간 연구자가 4~8시간 투자해야 약 4배를 내는 것과 비교하면, 명확한 목표 안의 반복 최적화는 이미 초인간적이라는 주장임

- 열린 연구 프로젝트에서도 꽤 놀라운 사례가 있음
  - 앤트로픽은 2026년 4월, 클로드 에이전트들이 AI 안전 문제 하나를 끝까지 수행한 데모를 공개했음
  - 약한 모델이 강한 모델을 안정적으로 감독할 수 있는지 보는 문제였고, 에이전트들이 가설 제안, 실험, 병렬 에이전트와 결과 공유, 반복을 수행했음
  - 인간 연구자 2명이 약 1주일 동안 성능 격차의 23%를 회복한 반면, 에이전트는 누적 800시간과 약 1만8000달러 컴퓨트로 97%를 회복했다고 함
  - 단, 문제 선택과 채점 기준은 인간이 만들었고, 결과가 프로덕션 규모 모델에 깔끔히 전이되지는 않았다는 단서가 있음

- ‘다음에 뭘 해야 하는가’ 판단도 조금씩 좋아지는 중이라고 함
  - 2026년 1~3월 실제 클로드 코드 세션 중, 연구자가 잘못된 샛길로 빠진 순간 129개를 골랐음
  - 모델에게 그 직전까지의 맥락만 보여주고 다음 행동을 묻고, 별도 클로드가 실제 결과를 보고 인간 선택과 모델 선택 중 뭐가 나았는지 평가했음
  - 2025년 11월 오퍼스 4.5는 인간 선택을 51% 이겼고, 2026년 4월 미토스 프리뷰는 64%까지 올라갔다고 함
  - 일부러 인간이 흔들린 순간만 고른 평가라 정면 비교는 아니지만, 연구 판단 능력 개선 신호로는 볼 수 있음

## 앞으로 가능한 세 가지 시나리오

- 첫 번째는 추세가 멈추지만, 지금 능력만 널리 퍼지는 시나리오임
  - 지수 곡선처럼 보이던 발전이 실제로는 S커브라서 어느 순간 평평해질 수 있음
  - 연구 감각 같은 능력은 단순히 컴퓨트와 데이터 확장으로 안 풀리고, 트랜스포머를 대체할 새 아이디어가 필요할 수도 있음
  - 혹은 전력, 칩 제조, 인터커넥트 대역폭 같은 공급망이 병목이 될 수도 있음
  - 그래도 지금 수준만 퍼져도 100명 회사가 1000명 회사 일을 하는 식의 변화는 가능하다고 봄

- 두 번째는 AI 연구소들이 복리로 효율을 계속 얻는 시나리오임
  - 인간은 방향을 정하고 결과를 판단하고, AI는 구현과 실험 대부분을 처리함
  - 100명 조직이 1만 명이나 10만 명 조직이 하던 일을 하는 식의 생산성 배수가 나올 수 있음
  - 대신 권위주의 감시, 개인 맞춤형 여론 조작 같은 악용도 같은 배율로 커질 수 있음
  - 앤트로픽은 지금 증거상 이 시나리오로 향할 가능성이 높다고 봄

- 세 번째는 AI가 완전한 재귀적 자기개선에 도달하는 시나리오임
  - 이 경우 AI 개발 속도는 인간 노동보다 컴퓨트 가용량과 알고리즘 효율 발견 속도에 의해 결정될 가능성이 큼
  - 인간은 개발자가 아니라 감시, 검증, 평가 담당에 가까워질 수 있음
  - 잘 풀리면 과학, 의료, 로보틱스 등으로 빠르게 확장될 수 있지만, 정렬 실패가 누적되면 통제 상실 위험도 커짐

> [!WARNING]
> 앤트로픽은 AI 개발을 늦추거나 일시 정지할 수 있는 ‘검증 가능한 국제 조정’이 필요하다고 보지만, 동시에 그런 체계를 만드는 게 미사일 사일로 감시보다 훨씬 어렵다고 말함. 학습 런은 숨기기 쉽고, 입력도 범용 자원이라 몰래 치고 나갈 유인이 너무 큼.

## 결국 인간의 역할은 어디로 가나

- 앤트로픽이 보는 인간의 남은 핵심 역할은 연구 감각과 판단임
  - 어떤 문제가 중요한지 고르기
  - 어떤 결과를 믿을지 판단하기
  - 어떤 접근이 막다른 길인지 알아차리기
  - 지금은 이게 인간 비교우위지만, 기사 전체는 이 영역마저 모델이 따라올 수 있다는 가능성을 열어둠

- 개발 조직 입장에서는 병목이 완전히 바뀌는 얘기임
  - 예전 병목은 코드를 쓰고 실험을 돌리는 인간 시간이었음
  - 이제 병목은 리뷰, 검증, 우선순위 결정, 안전성 평가로 이동함
  - AI가 코드를 무한히 만들 수 있어도 사람이 검토하지 못하면 전체 속도는 거기서 막힘. 이게 기사에서 암달의 법칙(Amdahl's Law)을 끌어오는 이유임

---

## 기술 맥락

- 이 글에서 가장 중요한 선택은 ‘사람이 직접 구현하는 개발 조직’에서 ‘사람이 목표를 주고 에이전트가 실행하는 개발 조직’으로 바뀌고 있다는 점이에요. 왜냐하면 생산성 향상이 단순 자동완성에서 나오는 게 아니라, 파일 수정·코드 실행·실험 반복까지 에이전트가 가져가면서 병목 위치가 바뀌고 있거든요.

- 앤트로픽이 재귀적 자기개선을 조심스럽게 꺼내는 이유는 코드 작성보다 연구 루프가 더 중요하기 때문이에요. 모델이 버그를 고치고 실험을 빠르게 돌리는 건 이미 보이지만, 다음 세대 모델을 만들려면 어떤 실험이 가치 있는지 고르는 판단까지 필요해요.

- SWE-bench나 CORE-Bench 같은 벤치마크는 이 변화의 외부 지표로 쓰여요. 왜냐하면 실제 코드베이스를 고치거나 논문 결과를 재현하는 능력은 장난감 문제가 아니라, 연구소 안에서 반복되는 작업과 꽤 닮아 있기 때문이에요.

- 암달의 법칙이 여기서 중요한 이유는, AI가 한 구간을 100배 빠르게 만들어도 조직 전체가 100배 빨라지지는 않기 때문이에요. 코드 생성이 빨라지면 리뷰가 막히고, 실험 실행이 빨라지면 어떤 실험을 할지 고르는 일이 막히는 식으로 새 병목이 계속 생겨요.

- 그래서 이 기사의 진짜 쟁점은 ‘AI가 코드를 잘 쓰냐’가 아니에요. AI가 만든 결과를 검증할 수 있는 시스템, 멈추거나 늦출 수 있는 조정 장치, 그리고 사람이 여전히 판단해야 할 지점을 어디에 둘지에 대한 이야기예요.

## 핵심 포인트

- 클로드가 2026년 5월 기준 앤트로픽 코드베이스에 병합되는 코드의 80% 이상을 작성했다고 공개됨
- 앤트로픽 엔지니어의 코드 병합량은 2024년 대비 2026년 2분기에 하루 기준 8배 증가했지만, 라인 수는 품질을 완벽히 대변하지 않는다는 단서가 붙음
- 장기 작업 능력은 2024년 4분짜리 작업에서 2026년 12시간짜리 작업까지 늘었고, 이 추세가 유지되면 2027년에는 몇 주짜리 작업도 가능할 수 있다고 봄
- 연구 실험 최적화에서는 클로드 오퍼스 4가 약 3배 속도 향상을 내던 수준에서 클로드 미토스 프리뷰가 약 52배까지 올라감
- 앤트로픽은 인간의 남은 비교우위를 ‘무엇을 할지 고르는 연구 감각과 판단’으로 보지만, 그 영역도 개선 신호가 있다고 주장함

## 인사이트

이 글은 그냥 ‘코딩 생산성이 좋아졌다’ 수준이 아니라, 프런티어 AI 회사 내부에서 병목이 타이핑에서 리뷰·검증·방향 설정으로 이동하고 있다는 내부 보고서에 가까워. 숫자 자체는 앤트로픽 관점이라 걸러 읽어야 하지만, 개발 조직의 역할 설계가 에이전트 중심으로 바뀔 수 있다는 신호는 꽤 세게 옴.
