AI 코딩 에이전트가 만든 코드, 이제 자동 검증 루프까지 돈다
테스트스프라이트가 AI 코딩 에이전트용 오픈소스 검증 CLI를 공개했어. 실제 브라우저와 API 환경에서 테스트를 돌리고, 실패 시 스크린샷·DOM 스냅샷·원인 가설·수정 권고까지 넘겨줘서 에이전트가 다시 고치는 루프를 만들려는 도구야.
- 1
TestSprite CLI는 아파치 2.0 라이선스의 오픈소스 CLI로 공개됐고, 터미널 기반 AI 코딩 에이전트가 직접 실행하도록 설계됐어.
- 2
브라우저와 API를 실제로 구동해 기능 오류와 회귀 오류를 잡는 데 초점을 맞춰.
- 3
CoderCup 실험에서 최고 성능 에이전트도 기존 정상 기능의 약 12%를 손상했고, 일부 에이전트는 약 25% 회귀 오류를 냈어.
- 4
한 에이전트는 약 10차례 수정 루프 뒤 기능 통과율을 약 80%까지 끌어올렸어.
AI 코딩의 병목이 ‘코드를 만들 수 있냐’에서 ‘망가뜨린 걸 알아챌 수 있냐’로 넘어가고 있어. 에이전트 시대의 테스트는 사람이 보는 리포트가 아니라, 에이전트가 읽고 다시 고칠 수 있는 피드백 루프가 핵심이 되는 느낌이야.
관련 기사
SKT는 GPU 클라우드, 네이버는 소버린 AI…엔비디아 협력의 진짜 차이
SK텔레콤과 네이버가 모두 엔비디아와 AI 팩토리 구축을 추진하지만, 실제 비즈니스 모델은 다름. SKT는 GPU와 데이터센터 인프라를 빌려주는 AI 인프라 사업에 가깝고, 네이버는 자체 LLM과 운영 경험을 얹어 소버린 AI 솔루션을 수출하려는 쪽임.
전북·전주에 AI 건설로봇 혁신센터 만든다
국토교통부와 전북특별자치도, 전주시, 전북대, 한국건설기술연구원이 AI 건설·로봇 혁신센터 설립을 추진함. 수도권과 대기업 중심이던 스마트건설 기술을 지방과 중소기업으로 확산시키고, 건설 산업의 AI 전환을 지원하겠다는 내용이 핵심임.
국산 의료 AI, 국내보다 해외에서 먼저 인정받고 돌아오는 중
국내 의료 AI 기업들이 예전처럼 국내 대형병원 레퍼런스에 매달리기보다 해외에서 먼저 매출과 인허가를 확보한 뒤 국내 시장으로 돌아오는 흐름이 커지고 있어. 코어라인소프트, 루닛, 뷰노 모두 해외 실적이 국내 평가를 바꾸는 사례로 언급됐고, 배경에는 신의료기술평가와 수가, 병원 도입 장벽이 있음.
오픈AI, 챗GPT 토큰값 확 낮추나…클로드 코드 압박이 세다
오픈AI가 챗GPT와 API 과금 기준인 토큰 요금을 크게 낮추는 방안을 검토 중인 것으로 알려졌다. 앤트로픽의 클로드 코드가 개발자 시장에서 치고 올라오고, 기업 고객들이 토큰 비용 부담을 크게 느끼면서 가격 경쟁이 본격화되는 분위기다.
한국·이탈리아, AI 반도체와 바이오 공동연구 판 키운다
한국과 이탈리아가 5년 만에 과학기술공동위원회를 열고 AI, 기후변화, 바이오 분야 협력을 논의했다. 특히 ETRI는 피지컬 AI용 반도체 핵심 기술로 체화지능, 뉴로모픽, 칩렛 이종집적을 제안했고, 뇌질환·기후 대응 작물 연구도 공동연구 후보로 올라왔다.
댓글
댓글
댓글을 불러오는 중...