클로드 5 페이블 체험기, 인공지능을 조종하는 게 아니라 의뢰하는 느낌이 됐다

ai-ml 2026-06-09 약 8분

 tags

#llm #agents #claude #coding #research

vote

북마크

저자는 공개 예정인 미토스급 인공지능 모델 클로드 5 페이블을 조기 체험하며 기존 공개 모델보다 훨씬 긴 작업과 복잡한 프로젝트 수행 능력이 좋아졌다고 평가한다. 특히 여러 보조 에이전트를 띄워 조사·코딩·검증을 병렬로 수행하는 방식 때문에, 사용자는 점점 직접 만드는 사람이 아니라 결과물을 의뢰하고 승인하는 사람에 가까워진다고 말한다.

1
클로드 5 페이블은 몇 시간에서 9시간 30분까지 이어지는 장기 작업을 스스로 수행하며 복잡한 소프트웨어를 생성함
2
등시선 지도 프로젝트에서 2200개 이상의 항공편, 철도 일정, 국가별 도로 속도 자료를 조사하고 시각화까지 구현함
3
인간·인공지능 판단을 보정하는 연구용 소프트웨어 콩코드를 19쪽 설계 문서 기반으로 제작함
4
강력해진 만큼 토큰 비용, 보안 가드레일, 내부 의사결정 불투명성 문제가 커짐

클로드 5 페이블은 저자 기준으로 "또 좀 좋아졌네" 수준이 아니라, 일하는 방식 자체가 바뀌었다는 느낌을 준 모델임
- 저자는 미토스급 인공지능 모델 중 처음 공개되는 클로드 5 페이블을 조기 체험함
- 보안 분야 영향이 많이 논의됐지만, 페이블은 가드레일 때문에 사이버보안 작업에는 사실상 쓰기 어렵다고 함
- 대신 게임 제작, 연구, 데이터 분석, 복잡한 코딩 프로젝트에서 기존 공개 모델보다 확실히 큰 점프를 보였다고 평가함
가벼운 예시로는 게임을 만들게 했는데, 여기서도 꽤 이상한 수준의 결과가 나옴
- 저자는 클로드 코드에서 애매한 프롬프트 하나를 던지고, 이후 "더 좋게 만들어봐" 같은 짧은 피드백만 몇 번 줬음
- 페이블은 외부 이미지 생성 없이 수학적으로만 아트와 3차원 오브젝트를 만들어 게임을 구성함
- 동전 뒤집기판 발라트로풍 게임, 자의식 있는 스네이크 게임, 깊은 곳으로 내려가는 게임 같은 결과물이 나옴
진짜 인상적인 건 등시선 지도(isochrone map) 프로젝트였음. 이건 기존 모델들이 제대로 못 하던 유형임
- 등시선 지도는 특정 도시에서 주어진 시간 안에 어디까지 갈 수 있는지를 보여주는 지도임
- 항공편, 공항 이동 시간, 기차, 도보, 자동차, 국가별 도로 속도 같은 변수가 얽혀 있어서 단순 코딩 문제가 아님
- 저자는 "실제 데이터 기반으로 여러 도시를 고를 수 있는 아름다운 등시선 지도를 만들어달라"는 식의 야심 찬 지시를 넣음
페이블은 이 작업을 혼자 몇 시간 동안 굴리면서, 여러 하위 인공지능을 띄워 조사와 구현을 병렬로 진행함
- 저자 관찰에 따르면 대부분 더 저렴한 클로드 소넷 계열로 보이는 보조 모델들을 호출해 여행 시간 조사를 맡김
- 최종적으로 2200개 이상의 구체적 항공편, 고속철도 일정, 여러 논문에서 가져온 국가별 도로 속도 데이터를 수집함
- 보조 에이전트가 조사하는 동안 본체는 코딩을 시작했고, 이후 추가 에이전트와 테스트를 띄워 코드 검증까지 진행함

❗중요

> 여기서 포인트는 "코드를 잘 짠다"가 아니라, 모델이 조사·설계·구현·검증을 자기 식으로 쪼개 장시간 실행했다는 점임.

결과물은 완벽하진 않았지만, 기존 모델과 비교하면 작업 범위가 확실히 달랐음
- 처음 결과물은 1881년 원조 등시선 지도 스타일을 닮은 동작 가능한 지도였음
- 다만 그린란드 같은 원격 지역은 정확한 이동 시간이 아니라 추정치가 많이 들어가 있었음
- 저자가 실제 원격 공항과 지역까지 이동 시간을 구하라고 고치자, 페이블은 서로 검증하는 적대적 에이전트 그룹을 띄워 핏케언섬 선박 운항, 오타와에서 그리스 피오르드까지 가는 경로 같은 디테일까지 찾아냄
저자가 더 크게 놀란 프로젝트는 연구용 소프트웨어 콩코드(Concord)였음
- 저자는 사람이 작성한 지저분한 응답을 분류하고, 인간 연구자 판단과 인공지능 판단을 통계적으로 보정하는 문제를 페이블에게 맡김
- 페이블은 먼저 19쪽짜리 복잡한 설계 문서를 만들고, 그다음 실제 구현에 들어감
- 전체 작업 시간은 9시간 30분이었고, 여러 데이터셋을 받아 인간·인공지능 응답을 보정한 뒤 복잡한 분석을 수행하는 소프트웨어가 나옴
물론 만능은 아님. 비용과 가드레일, 특유의 이상한 문체, 블랙박스 문제가 그대로 따라옴
- 페이블은 오퍼스보다 2배 비싸고, 토큰을 엄청난 속도로 태운다고 함
- 다만 저렴한 모델에 일을 위임하는 구조 덕분에 실제 비용은 어느 정도 줄어들 수 있음
- 보안 문제 냄새만 나도 가드레일이 작동해 더 약한 클로드 4.8 오퍼스로 내려가는 일이 잦았다고 함
- 생성한 소프트웨어와 진행 보고서에는 여전히 클로드 특유의 문체 흔적이 남아 있었음
가장 큰 변화는 사용자의 역할임. 저자는 이제 모델을 조종한다기보다 일을 발주하는 느낌에 가깝다고 말함
- 과거엔 프롬프트를 넣고 결과를 조금씩 끌고 가는 감각이었다면, 페이블은 지시를 받고 자체적으로 조사·작성·검증 스튜디오를 차리는 쪽에 가까움
- 사용자는 세부 의사결정이 어떻게 이뤄지는지 거의 보지 못하고, 중간에 관여할 기회도 많지 않음
- 수백 개의 작은 판단을 모델이 알아서 해버리기 때문에, 결과는 좋아도 과정은 더 불투명해짐

ℹ️참고

> 저자는 이걸 명백한 통제 상실이라고 보진 않음. 다만 "지시한다"와 "직접 한다"가 더 이상 같은 말이 아니라는 점을 강조함.

개발자에게 이 글이 중요한 이유는 단순히 코딩 생산성이 올라간다는 얘기가 아니라서임
- 복잡한 내부 도구, 연구용 소프트웨어, 수익성이 낮아 아무도 만들지 않던 작은 전문 도구들이 모델 발주만으로 튀어나올 수 있음
- 반대로 그 결과물을 검수하고 버그를 잡고 책임질 사람은 여전히 필요함
- 저자가 오히려 미래에 코더가 더 필요할 수 있다고 본 이유도 여기에 있음. 소프트웨어 사용처가 폭발하면 검수와 통합의 일도 같이 늘어남

기술 맥락

페이블이 보여준 선택은 단일 응답 생성이 아니라 장시간 에이전트형 워크플로예요. 왜 이게 중요하냐면 복잡한 작업은 한 번에 답을 쓰는 것보다 조사, 설계, 구현, 검증을 나누는 쪽이 훨씬 현실적인 구조거든요.
등시선 지도 사례에서 모델은 항공편, 철도, 도로 속도 같은 서로 다른 데이터 소스를 동시에 모았어요. 이건 단순히 코드를 생성한 게 아니라, 데이터 수집과 판단이 많은 제품 개발 과정을 흉내 낸 거예요. 그래서 사용자는 "어떤 라이브러리를 쓸까"보다 "최종 결과가 믿을 만한가"를 더 많이 보게 돼요.
콩코드 사례가 흥미로운 이유는 시장성이 애매한 전문 도구를 만들었다는 점이에요. 연구자에게는 필요하지만 제품 회사가 돈을 벌기 어려운 소프트웨어가 많거든요. 모델이 이런 틈새 도구를 몇 시간 동안 만들어내면, 개발 수요 자체가 넓어질 수 있어요.
대신 비용과 검증 문제가 같이 커져요. 9시간 넘게 토큰을 태우는 모델은 결과가 멋져도 운영비가 만만치 않고, 내부에서 어떤 판단을 했는지 다 따라가기도 어려워요. 그래서 앞으로 개발자의 일은 코드를 직접 치는 것만큼이나, 모델 산출물을 테스트하고 책임질 수 있는 형태로 만드는 쪽으로 이동할 가능성이 커요.

이 글에서 흥미로운 건 성능 자랑보다 역할 변화다. 개발자가 도구를 조작하는 단계에서, 모델에게 일을 맡기고 결과를 검수하는 단계로 넘어가면 소프트웨어 생산의 병목과 책임 소재가 같이 바뀐다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-23

알파벳, 클라우드 82% 성장했지만 AI 인프라 투자로 현금흐름 첫 적자

알파벳이 2분기 매출 1198억 달러를 기록하며 시장 전망을 넘겼고, 클라우드 매출은 82% 급증한 248억 달러까지 뛰었다. 하지만 AI 인프라에 분기 449억 달러를 투입하면서 잉여현금흐름은 2004년 상장 이후 처음으로 분기 적자를 냈다.

ai-ml 2026-07-23

알파벳 클라우드 매출 82% 폭증했는데, 클라우드 ETF는 왜 빠졌나

알파벳의 2분기 클라우드 매출이 전년 대비 82% 늘며 월가 예상치를 크게 넘었지만, 클라우드 관련 ETF는 오히려 하락했다. 시장은 이제 클라우드 매출 성장률만 보는 게 아니라, 그 매출을 만들기 위해 데이터센터와 칩에 얼마나 많은 자본지출이 들어갔는지를 따지고 있다.

ai-ml 2026-07-23

젠슨 황 “중국산 오픈소스 AI, 좋으면 써야 한다”

젠슨 황 엔비디아 CEO가 미국 정부의 중국산 오픈소스 AI 모델 규제 움직임에 반대했다. 딥시크, 알리바바, 문샷 AI 같은 중국 모델이 백도어라는 우려는 오해에 가깝고, 좋은 오픈소스 모델은 기업들이 활용할 수 있어야 한다는 주장이다.

ai-ml 2026-07-23

업스테이지 ‘솔라 오픈 2’ 공개, 한국어·에이전트 성능으로 독파모 2라운드 승부

업스테이지가 오픈웨이트 LLM ‘솔라 오픈 2’를 공개했다. 2500억 매개변수 중 150억 개만 활성화하는 MoE 구조, 100만 토큰 컨텍스트, H200 2장 구동 가능성을 앞세워 한국어·에이전트·기업 도입성을 동시에 노린 모델이다.

ai-ml 2026-07-23

아이벡스, 오픈소스 로봇·비전으로 볼트 검사 투입 자동화한다

아이벡스가 정보통신산업진흥원의 오픈소스 사업화 과제에 선정돼 케이피에프의 자분탐상 검사라인 자동화에 들어간다. 벌크 상태로 쏟아지는 볼트류를 AI 비전으로 인식하고, 6D 자세 추정과 로봇 제어로 집어서 검사장비에 넣는 흐름까지 구현하는 게 핵심이다.

클로드 5 페이블 체험기, 인공지능을 조종하는 게 아니라 의뢰하는 느낌이 됐다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

클로드 5 페이블 체험기, 인공지능을 조종하는 게 아니라 의뢰하는 느낌이 됐다

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사