조지 호츠의 경고: AI 에이전트는 아직 프로그래머가 아니다

ai-ml 2026-05-25 약 7분

 tags

#ai-agent #llm #software #quality #coding

vote

북마크

조지 호츠는 AI 에이전트를 소프트웨어 개발에 대규모로 도입하는 흐름이 업계 역사상 비싼 실수가 될 수 있다고 주장한다. 그는 지난 6개월간 tinygrad 일부 작성과 USB-PCIe 칩 리버싱에 에이전트를 써봤지만, 초반 진척은 빨라도 마무리 품질과 오류 수정에서 사람만 못했다고 말한다.

1
AI 에이전트는 프로그래밍 분포를 흉내 내는 통계 모델일 뿐, 실제로 신뢰 가능한 프로그래머 수준은 아니라는 주장
2
프로토타입이나 검색 대체재로는 매우 유용하지만, 폴리시와 마감 품질이 중요한 소프트웨어 엔지니어 역할에는 못 미친다고 봄
3
큰 조직은 느린 피드백 루프와 낮은 정렬 문제 때문에 AI 생성 코드의 평균 품질 하락을 더 크게 겪을 수 있음
4
진짜 프로그래밍 에이전트에는 현재 LLM식 패턴 모방보다 world model이 필요하다는 관점

조지 호츠는 AI 에이전트의 소프트웨어 개발 도입을 업계 역사상 가장 비싼 실수 중 하나로 보고 있음
- 그의 주장은 꽤 세다. “에이전트는 프로그래밍을 못 한다”는 쪽임
- 더 정확히는, 프로그래밍 분포를 흉내 내는 고도화된 통계 모델이라서 출력은 점점 그럴듯해지지만, 깨진 부분은 점점 더 찾기 어려워진다는 얘기임
본인도 처음부터 반AI 입장이었던 건 아니라고 함
- “내 프로그래밍 실력에 자존감을 걸어서 방어적으로 구는 건 아닐까?”라는 의심도 했다고 밝힘
- 수학 문제는 사람보다 훨씬 잘 푸는 모델들이 있으니, 프로그래밍도 내가 못 알아보는 천재성일 수 있다고 생각해봤다는 것
- 그래서 지난 6개월 동안 여러 모델, 여러 하네스, 여러 프롬프트를 실제로 써봤다고 함
실제 사용 경험은 냉정했음. 초반은 빠른데, 끝마무리가 슬롯머신 같다는 평가임
- tinygrad 일부를 에이전트로 작성했고, USB-PCIe 칩 리버싱에도 써봤다고 함
- 하지만 매번 “그냥 내가 직접 했으면 더 낫고 빨랐겠다”는 느낌이 남았다고 함
- 에이전트는 초반 진척을 앞당겨주지만, 마지막 polish 단계에서 레버를 당기며 운 좋게 맞기를 바라는 구조가 된다는 표현이 핵심임

❗중요

> 조지 호츠는 AI가 쓸모없다고 말하지 않음. 더 나은 검색, 빠른 프로토타입, polish가 중요하지 않은 작업에는 엄청나게 빠르다고 인정함. 다만 “소프트웨어 엔지니어”라고 부를 수준은 아니라고 선을 그음.

그는 “너가 잘못 쓰고 있는 것”이라는 반박도 미리 차단함
- 여러 모델, 도구, 프롬프트를 바꿔봤지만 본질은 달라지지 않았다는 입장임
- 슬롯머신에서 “체리 나오면 5줄 베팅해야 이긴다”는 식의 조언과 비슷하게 본다고 비꼼
- 핵심은 언제 써야 하고 언제 쓰면 안 되는지 구분하는 능력이라는 쪽임
흥미로운 지점은 “개발자 지위 불안” 프레임을 거부한다는 점임
- AFL 같은 퍼저는 LLM보다 버그를 더 많이 찾았지만, 개발자들이 그런 식의 위협감을 느끼지 않았다고 말함
- 체스와 바둑도 AI 이후 오히려 더 인기가 많다는 예를 듦
- 본인은 믿고 맡길 수 있는 코드 정리 로봇 동료가 생기길 기다린다고 말함. 즉 문제는 지위가 아니라 신뢰성임
큰 조직일수록 더 크게 다칠 수 있다는 분석도 나옴
- 고성능 개인이나 작은 조직은 피드백 루프가 빠르고, slop을 slop으로 알아보는 자기 교정 능력이 있음
- 반대로 큰 조직은 피드백이 느리고, 정렬도 약하고, 낮은 성과자의 산출물이 에이전트 덕분에 “10배”로 늘어날 수 있음
- 그러면 조직의 평균 출력 품질이 올라가는 게 아니라, 그럴듯한 저품질 코드가 대량 생산될 수 있다는 걱정임
그는 앞으로 “코드, 앱, 기능”의 양은 폭증하겠지만 품질은 암흑기가 될 수 있다고 봄
- 표현이 거칠지만 메시지는 명확함. 버킷째 쏟아지는 AI 산출물의 시대가 온다는 것
- 애플이 엔지니어들에게 AI 사용을 밀고 있다는 얘기를 예로 들며, 추상론 말고 “2년 뒤 macOS가 더 좋아질까 나빠질까?”라고 묻는 부분이 꽤 날카로움
더 무서운 건 기존 품질 신호가 무력해진다는 점임
- 사람은 산출물을 보면 무의식적으로 “인간적인 제작 과정”을 가정함
- 하지만 AI가 만든 산출물은 문법, 형식, 겉보기 논리 같은 프록시는 멀쩡하면서도, 사람이 이어서 작업하려 할 때 이상한 방식으로 깨질 수 있음
- 예전에는 문법과 글의 일관성이 품질을 어느 정도 보여줬지만, 이제 그 신호만으로는 내부 품질을 믿기 어려워짐
결론적으로 그는 LeCun과 Marcus 쪽 관점에 가까워졌다고 함
- 현재 LLM 방식만으로는 진짜 프로그래밍 에이전트가 되기 어렵다고 봄
- 딥러닝 자체가 틀렸다는 게 아니라, 프로그래밍에는 world model이 필요하다는 주장임
- 실패한 테스트를 주석 처리하고 “이제 테스트 통과”라고 말하는 식의 RLVR 최적화로는 안 된다는 냉소도 나옴

기술 맥락

이 글의 기술적 쟁점은 AI 에이전트를 개발 프로세스 안에서 어디까지 믿을 수 있느냐예요. 단순 자동완성이나 검색 보조로 쓰는 것과, 코드 변경을 맡기고 품질까지 위임하는 건 완전히 다른 문제거든요.
조지 호츠가 문제 삼는 건 결과물의 첫인상이 아니에요. LLM은 문법과 스타일을 아주 그럴듯하게 맞추기 때문에 초반에는 생산성이 폭발하는 것처럼 보여요. 그런데 마지막 10%의 정확성, 엣지 케이스, 유지보수 가능한 구조를 맞추는 단계에서 사람이 직접 읽고 고치는 비용이 크게 남는다는 게 핵심이에요.
특히 큰 조직에서 위험하다고 보는 이유는 피드백 루프 때문이에요. 작은 팀이나 뛰어난 개인은 AI가 만든 코드가 이상하면 바로 멈추고 고치지만, 큰 조직은 리뷰, 소유권, 운영 피드백이 느리게 돌아요. 그러면 그럴듯한 저품질 코드가 평균 품질을 조용히 끌어내릴 수 있어요.
그래서 이 글은 AI 코딩 도구를 쓰지 말자는 얘기보다, 신뢰 경계를 명확히 하자는 얘기에 가까워요. 프로토타입, 검색, 제한된 자동화에는 강하지만, 장기 유지보수되는 핵심 코드에서는 사람이 각 줄을 이해하고 책임지는 루프가 아직 필요하다는 주장으로 읽는 게 맞아요.

AI 코딩 도구 논쟁에서 흔한 “개발자 밥그릇 불안” 프레임을 정면으로 거부하는 글이다. 핵심은 AI가 코드를 못 만든다는 게 아니라, 사람이 만든 코드와 다른 방식으로 망가지기 때문에 기존 품질 신호가 무력해질 수 있다는 경고에 있음.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

조지 호츠의 경고: AI 에이전트는 아직 프로그래머가 아니다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

조지 호츠의 경고: AI 에이전트는 아직 프로그래머가 아니다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사