본문으로 건너뛰기
피드

코딩 에이전트 시대, 우리는 이제 QA 엔지니어임

backend 약 4분
vote
0
댓글
북마크

코딩 에이전트가 자기 작업을 검증할 수 없으면 제대로 작동하는 코드를 만들 수 없다는 주장. 역할이 프롬프트 엔지니어가 아니라 테스팅 하네스를 구축하는 QA 방향으로 이동하고 있으며, 재현성·진정성·조합성·프로그래밍 가능성을 갖춘 하네스가 에이전틱 프로그래밍의 핵심.

  • 1

    에이전트는 검증 수단 없이 스펙만으로는 반쯤 작동하는 코드를 자신있게 내놓음

  • 2

    단일 서비스 테스트는 쉽지만 서비스 경계를 넘으면 난이도가 급상승

  • 3

    에이전트용 하네스 조건: 재현성, 진정성, 조합성, 프로그래밍 가능성

  • 4

    Mockito 기반 목/스텁은 에이전트의 전형적 실패 패턴 — Testcontainers, Localstack, Miniflare 권장

중요

> 에이전트가 자기 작업을 검증할 수 없으면 "바이브"에 의존할 뿐임. 테스팅 하네스가 에이전틱 프로그래밍의 핵심이 됨.

달라진 개발 프로세스

  • 코딩 에이전트를 쓰면서 저자의 접근 방식이 완전히 바뀜. 예전엔 "프로토타입을 위한 최소 변경은?" 이었다면, 지금은 "이걸 어떻게 테스트하지?" 부터 시작
  • 에이전트에게 아무리 상세한 스펙을 줘도, 검증 수단이 없으면 반쯤 작동하는 코드를 자신있게 내놓음. 다들 경험해봤을 것
  • 결국 역할이 "프롬프트 엔지니어"가 아니라 테스팅 하네스를 만드는 QA 쪽으로 이동하고 있다는 주장

단일 서비스 vs 서비스 경계

  • 하나의 서비스 안에서는 테스트가 비교적 쉬움 — 컨테이너 띄우고, 스토리지 준비하고, 데이터 넣으면 됨
  • 서비스 경계를 넘는 변경에서 테스트 난이도가 급격히 올라감. 여러 시스템을 같이 돌리고, 상호작용시키고, 전체 상태를 검증해야 함. UI까지 끼면 더 복잡해짐

에이전트용 테스팅 하네스의 4가지 조건

  • 재현성(Reproducibility): 에이전트는 테이블 날리고, DB 통째로 드롭하고, 엉망인 상태 위에 계속 빌드함. 환경을 처음부터 재생성할 수 있어야 함
  • 진정성(Authenticity): Mockito 같은 프레임워크로 가짜 데이터 만들면 에이전트가 현실과 동떨어진 데이터를 기대하는 코드를 작성하는 전형적인 실패 패턴이 나옴. 실제 데이터와 최대한 가까워야 함
  • 조합성(Composability): 하나의 서비스용 하네스로는 부족. 여러 팀이 같은 프레임워크 위에 구축하면 전체 E2E 검증이 가능해짐. 이건 조직 차원의 역량임
  • 프로그래밍 가능(Programmatic): UI 클릭이나 콘솔 복붙이 필요하면 다시 사람이 루프에 들어옴. 환경 구동 → 시나리오 실행 → 검증 → 정리까지 전부 자동화되어야 함

관련 도구

  • Testcontainers: 로컬에서 서비스 컨테이너 띄우기
  • Localstack: AWS 에뮬레이션
  • Miniflare: Cloudflare Workers 에뮬레이션
  • 다만 대규모 프로젝트는 각자 고유해서, 자기 시스템에 맞는 프레임워크를 만드는 게 진짜 어려운 부분

ℹ️참고

> 이 관행들은 AI 이전에도 생산성을 높여줬을 것임. 다만 예전엔 없어도 버텼고, 지금은 없으면 에이전트를 제대로 쓸 수 없는 차이.

이 관행들은 AI 이전에도 유익했지만, 이제는 에이전트를 실질적으로 활용하려면 필수가 됐다는 점이 핵심 메시지.

댓글

댓글

댓글을 불러오는 중...

backend

Go에서 Rust로 옮길 때 진짜로 바뀌는 것들

이 글은 Go 백엔드 서비스를 Rust로 옮길 때 속도보다 컴파일 타임 보장, 런타임 트레이드오프, 개발자 경험이 더 중요하다고 설명한다. nil 패닉, 데이터 레이스, 에러 처리, 제네릭, 비동기 모델, 마이그레이션 전략까지 실무 관점에서 Go와 Rust를 길게 비교한다.

backend

Python 3.15에서 헤드라인은 못 탔지만 꽤 쓸만한 기능들

Python 3.15에는 lazy imports나 Tachyon profiler 같은 큰 기능 말고도 실무에서 바로 체감될 만한 작은 개선들이 들어가. TaskGroup 취소, 컨텍스트 매니저 데코레이터 개선, 스레드 안전 이터레이터처럼 평소 애매하게 불편했던 지점들이 꽤 깔끔해졌어.

backend

심평원, DUR부터 의료영상 심사까지 클라우드로 갈아엎는다

심평원이 정보시스템 클라우드 전환과 함께 병·의원 업무에 직접 닿는 DUR, 의료영상 AI 심사, 요양급여내역 조회 시스템을 고도화한다. 핵심은 설치형 프로그램 중심이던 연계를 웹과 API 기반으로 넓히고, 진료·청구 과정에서 실시간 확인과 자동 판독을 강화하는 쪽이다.

backend

윈도우 에러 코드 7번 ‘ERROR_ARENA_TRASHED’는 어디서 왔을까

ERROR_ARENA_TRASHED는 Win32에서 실제로 쓰이는 현대적 에러라기보다 MS-DOS 시절 메모리 관리 구조에서 넘어온 잔재야. MS-DOS가 메모리 블록 앞의 arena 시그니처를 훑다가 예상한 값이 아니면 ‘arena가 망가졌다’고 보고 이 에러를 냈다는 이야기야.

backend

C/C++ 컴파일러의 느슨한 메모리 동시성 버그를 자동으로 잡는 박사논문

C와 C++ 컴파일러에서 relaxed memory 동시성 버그를 찾는 자동 테스트 프레임워크를 다룬 박사논문이 공개됐어. Téléchat, Atomic-mixer 같은 도구로 소스 수준 동작과 컴파일된 프로그램 동작을 비교하고, LLVM과 GCC 툴체인에서 실제 버그를 찾아낸 내용이 핵심이야.