---
title: "돌도 생각할 수 있듯이 (As Rocks May Think)"
published: 2026-02-04T22:50:34.000Z
canonical: https://jeff.news/article/405
---
# 돌도 생각할 수 있듯이 (As Rocks May Think)

코딩 에이전트가 자동화된 과학자로 진화한 현재를 짚고, AI 추론의 역사(연역·귀납 → AlphaGo → CoT → DeepSeek R1)를 정리하며, 추론 컴퓨트 수요의 폭발적 증가와 새로운 CS 프리미티브의 가능성을 전망하는 에세이.

## 세상이 바뀌었음

- 2022년 이후 세상이 근본적으로 달라졌음. ChatGPT 등장, AI로 에르되시 문제 증명, 국가 단위 사이버공격 자동화, 범용 가정용 휴머노이드 선주문 가능, AI 생성 영상이 실제와 구별 불가 수준에 도달함
- 가장 큰 변화는 **기계가 코딩과 사고를 꽤 잘하게 됐다는 것**
- 저자는 2개월간 Claude Code에 몰두하면서 AlphaGo를 밑바닥부터 구현함
- Claude에게 인프라, 연구 아이디어 작성뿐 아니라 가설 제안, 결론 도출, 다음 실험 제안까지 시킴
- `/experiment` 커맨드를 만들어 실험 폴더 생성 -> 단일 파이썬 파일 실행 -> 결과 관찰 -> report.md 생성까지 자동화함

## 코딩 에이전트는 자동화된 과학자

- 이전 세대의 자동 튜닝 시스템(Google Vizier 등)은 사용자가 정의한 하이퍼파라미터 공간 위에서 가우시안 프로세스 밴딧을 돌렸음
- 반면 현대 코딩 에이전트는 **코드 자체를 바꿀 수 있어** 탐색 공간이 제한되지 않음
- 실험 결과의 일관성을 검토하고, 결과를 설명하는 이론을 세우고, 그 예측을 테스트할 수도 있음
- 소프트웨어 엔지니어링은 시작에 불과하고, 진짜 핵심은 범용 사고 기계가 등장했다는 것임

> [!note]
> 바둑, 단백질 접힘, 음악·영상 생성, 자동 수학 증명 등 한때 계산적으로 불가능하다고 여겨졌던 문제들이 이제 박사과정 학생의 컴퓨팅 자원으로도 접근 가능함.

## AI 추론의 역사

- **연역적 추론**: Cyc 같은 기호 추론 시스템은 상식 지식 데이터베이스를 구축하고 연역적 탐색으로 새로운 링크를 추가하려 했으나, 현실 세계의 불확실성 때문에 실패함. 틱택토(255,168개 고유 게임)는 되지만 체스나 바둑은 게임 수가 너무 많아 완전 탐색이 불가함
- **귀납적 추론**: 베이즈 규칙을 통한 확률적 추론. 하지만 베이즈 넷의 정확한 추론은 NP-hard이고, 추론 단계가 길어질수록 불확실성이 누적되어 분산된 저확률 믿음만 남게 됨
- **AlphaGo**: 연역적 탐색과 딥러닝 귀납적 추론을 결합한 최초의 시스템. 정책 네트워크가 트리의 너비를, 가치 네트워크가 트리의 깊이를 가지치기함. 하지만 바둑의 고정된 규칙에 의존했기 때문에 언어처럼 유연한 영역에는 직접 적용이 안 됐음

## LLM 추론의 진화

- **프롬프팅 시대(2022~)**: Chain-of-thought("단계별로 생각해보자")가 LLM의 중간 사고 생성 가능성을 보여줌. 하지만 프롬프트 엔지니어링은 "사전학습에서 우연히 형성된 회로를 찾는 것"에 불과해서 한계가 있었음. 병목은 더 나은 추론 회로를 학습시키는 것이었음
- **과정 감독(process supervision)**: 전문가가 추론 단계를 평가하는 데이터를 수집해서 채점 모델을 훈련시키는 방식. 인간 어노테이터가 필요해서 확장이 안 됐음
- **Tree of Thought(2024)**: 트리 탐색으로 추론을 병렬화하고 백트래킹하게 했으나, 논리적 트리 구조가 진짜 병목이 아니었기에 주류가 되지 못함

## DeepSeek R1 시대

- DeepSeek R1-Zero의 레시피는 놀라울 정도로 단순함:
  1. 2023~2024보다 우수한 베이스 모델로 시작
  2. On-policy RL(GRPO)로 규칙 기반 보상(AIME 수학, 코딩 테스트, STEM 문제 등)에 최적화
  3. `<think>` 태그 안에서 추론하도록 포맷팅 보상 적용
- R1-Zero는 추론은 잘하지만 일반 태스크가 약해서, 4단계 추가 훈련(RL -> SFT -> RL -> SFT -> RL)을 거쳐 최종 R1이 됨
- **핵심 통찰**: 결과 기반 RL만으로도 논리적 추론이 창발하려면 베이스 모델이 충분히 강해야 함. 약한 초기화에서 안 되는 알고리즘이 강한 초기화에서도 안 된다고 가정하면 안 됨
- On-policy RL이 중요했던 이유: 베이스 모델의 분포가 최종 추론 전문가와 너무 달라서, 최신 모델이 직접 데이터를 샘플링하며 점진적으로 나아가야 했음
- 규칙 기반 보상이 인간 피드백 기반 보상 모델보다 효과적이었던 건 반직관적이었음. 좁은 분포의 검증된 보상이 다른 영역의 추론 회로도 가르칠 수 있었음

## 추론의 미래

- LLM 추론은 강력하면서도 유연함. 각 단계가 "1과 1의 비트 AND는 1" 같은 미세한 단계일 수도, "샐리가 해변에 있었으니 범행 현장에 없었을 가능성이 높다... 쌍둥이가 없다면" 같은 큰 도약일 수도 있음
- 향후 가능성: 추론 데이터가 대량 생성되면서 사전학습만으로도 추론 회로가 형성될 수 있음
- 순차적 계산이 오토리그레시브 토큰 생성에만 국한되지 않음. 단일 forward pass의 레이어 간에서, backward pass에서, 디퓨전 모델에서도 추론이 발생할 수 있음
- 큰 모델의 단일 패스와 작은 모델의 다수 패스 간에 호환성이 있다는 결과도 나옴

## "사고의 시가총액"

> [!important]
> 에어컨이 전 세계 전력의 10%를 소비하는 반면, 데이터센터는 아직 1% 미만임. 자동화된 사고가 추론 컴퓨트에 대한 천문학적 수요를 만들어낼 것임. "007이 새로운 996"이 됨.

- 자동화된 연구가 곧 고성과 랩의 표준 워크플로가 될 것임. 손으로 아키텍처 짜고 Slurm에 하나씩 제출하는 연구자는 Claude Code 터미널 5개를 병렬로 돌리는 연구자에게 생산성에서 뒤처질 것임
- 저자의 패턴: 잠자기 전에 Claude 세션에 연구 작업을 맡기고, 아침에 실험 보고서를 읽고, 병렬 조사 5개를 새로 지시함
- 군사 분야에서도 워게임 시뮬레이션을 위해 가용한 모든 FLOP을 확보하려 할 것임

## 새로운 CS 프리미티브와 조언

- 추론 모델로 인해 새로운 알고리즘이 가능해짐. 이전에는 근사할 수 없었던 상태 엔트로피 H(s)나 궤적 엔트로피 H(τ)를 이제 근사할 수 있음
- 베이즈 넷과 AlphaGo에서는 그래프 간선을 하나씩 순회해야 했지만, 이제 LLM에 문제 전체를 총체적으로 생각하라고 요청할 수 있음
- **소프트웨어 조직**: 팀 모노레포를 에이전트가 활용할 수 있게 빨리 정비해야 함
- **연구자**: 자동화된 연구가 새로운 메타임. 에이전트 팀을 목표에 배치하고 풀스택 범위에서 무엇에 집중할지 판단할 줄 아는 사람이 압도적 생산성을 경험하게 될 것임
- **로보티시스트**: 자동화된 추론의 발전이 시뮬레이션 데이터 vs 실제 데이터 논쟁에서 시뮬레이션 쪽으로 저울을 크게 기울임

## 핵심 포인트

- 저자가 Claude Code로 AlphaGo 연구를 자동화하는 /experiment 워크플로를 구축함
- 코딩 에이전트는 코드 자체를 수정할 수 있어 Vizier 같은 기존 튜닝 시스템과 근본적으로 다름
- DeepSeek R1-Zero의 핵심: 강한 베이스 모델 + 규칙 기반 보상의 GRPO RL로 추론 회로가 창발
- 추론이 forward pass 레이어 간, backward pass, 디퓨전 모델에서도 발생할 수 있음
- 에어컨이 전 세계 전력의 10%를 소비하는 반면 데이터센터는 1% 미만 — 추론 컴퓨트 수요가 천문학적으로 커질 것

## 인사이트

프롬프트 엔지니어링이 한계에 부딪힌 이유는 추론 회로 자체가 약했기 때문이고, R1이 보여준 건 충분히 강한 베이스 모델에 단순한 결과 기반 RL만으로도 논리적 추론이 창발할 수 있다는 것임.