---
title: "Square Minus Square - 코딩 에이전트 벤치마크"
published: 2025-12-26T23:20:00.000Z
canonical: https://jeff.news/article/1206
---
# Square Minus Square - 코딩 에이전트 벤치마크

2D 정사각형 교차 영역 삼각분할이라는 기하학 과제로 여러 코딩 에이전트를 테스트한 결과, 현재까지 완벽하게 해결한 LLM은 없으며 Opus, Gemini 3 Pro, GPT 5.2가 번갈아 상위권을 차지함.

- 2D 평면 위에 겹칠 수 있는 두 개의 정사각형이 있을 때, 첫 번째 사각형에서 교차 영역을 빼고 남은 부분을 삼각분할(triangulation)하는 Rust 함수를 구현하는 과제임. 축 정렬되지 않고 크기도 다른 조건이며, 최소한의 삼각형을 사용해야 함.

- 여러 코딩 에이전트에게 이 과제를 수행시키고, 작성자 본인도 AI 없이 직접 구현해봄. 에이전트들이 스크린샷을 생성하고 확인할 수 있는 프레임워크를 만들어 테스트했으며, 각 에이전트마다 두 번 실행해서 더 나은 결과를 채택함.

- 현재까지 이 과제를 완벽하게 해결한 LLM은 없음. 상위 모델인 Opus, Gemini 3 Pro, GPT 5.2가 번갈아가며 가장 좋은 결과를 내기도 했지만, 때로는 크래시하는 코드를 생성하기도 해서 확실한 승자는 없음.

- 거의 모든 모델이 스크린샷을 생성해서 직접 확인하고 버그를 수정하는 패턴을 보임. 상위 모델들은 실제 문제를 정확히 식별해냄. 이는 피드백 루프의 중요성을 보여줌 — 에이전트가 자기 작업을 스스로 점검할 수 있는 방법을 항상 제공해야 함.

- Gemini 3 Flash는 과제를 잘 해결한 것처럼 보이지만, 불필요한 꼭짓점과 삼각형을 추가하는 문제가 있었음.

## 핵심 포인트

- 현재까지 이 과제를 완벽히 해결한 LLM은 없음
- Opus, Gemini 3 Pro, GPT 5.2가 번갈아 최고 성능을 보이지만 확실한 승자 없음
- 대부분의 모델이 스크린샷을 생성해 자체 디버깅하는 패턴을 보임
- 피드백 루프 제공이 에이전트 성능에 중요한 역할을 함

## 인사이트

코딩 에이전트에게 자기 작업을 시각적으로 검증할 수 있는 피드백 루프를 제공하는 것이 성능 향상의 핵심이라는 점이 흥미로움.
