앤티그래비티 2.0, OpenSCAD 건축 3D LLM 벤치마크 1위

ai-ml 2026-05-22 약 9분

 tags

#llm #openscad #cad #gemini #benchmark

vote

북마크

ModelRift가 여러 AI 코딩 도구에 같은 과제를 던졌다. 참고 이미지 2장을 보고 OpenSCAD로 로마 판테온을 만들게 한 뒤, 렌더링과 최종 3D 모델 품질을 비교한 실전형 벤치마크다. 결과는 구글 앤티그래비티 2.0과 제미나이 3.5 플래시 하이가 4.5점으로 가장 강했고, 속도보다 공간 판단력과 반복 검증 루프가 훨씬 중요하다는 결론이 나왔다.

1
판테온 과제는 단순 문법 테스트가 아니라 돔, 로툰다, 주랑, 오큘러스, 삼각 페디먼트까지 맞춰야 하는 공간 추론 테스트였음
2
구글 앤티그래비티 2.0과 제미나이 3.5 플래시 하이는 실제 판테온 치수를 찾고, 5개 링과 28개 코퍼 천장 패턴까지 구현해 최고 품질 4.5점을 받음
3
커서 Composer 2.5는 가장 빨랐지만 품질은 1.4점으로 최하였고, 코덱스 5.5 하이는 디테일은 강했지만 최종 STL 내보내기에서 문제가 생겨 3.0점에 그침
4
OpenSCAD는 LLM이 파라미터, 반복문, 불리언 연산으로 3D 구조를 직접 다루기 좋아 CAD 생성 타깃으로 꽤 잘 맞는다는 게 확인됨

ModelRift가 꽤 실전적인 3D LLM 벤치마크를 돌림 — 과제는 참고 이미지 2장을 보고 OpenSCAD로 로마 판테온 만들기였음
- 단순히 큐브에 구멍 뚫는 수준이 아니라, 로툰다, 돔, 오큘러스, 전면 주랑, 삼각 페디먼트, 기둥 배치까지 어느 정도 읽혀야 하는 과제
- ModelRift 입장에선 플랫폼의 모든 3D 모델을 OpenSCAD로 생성하니까, LLM의 공간 기하 처리 능력이 곧 제품 품질과 연결됨
판테온을 고른 이유가 좋음 — OpenSCAD가 잘하는 영역과 못하는 영역의 경계에 딱 걸쳐 있음
- OpenSCAD는 유기적인 조각상이나 캐릭터 모델링엔 별로지만, 불리언 연산, 회전 대칭, 반복 배치, 압출, 하드서피스 형태에는 강함
- 판테온은 원형 로툰다와 돔, 중앙 오큘러스, 직선형 포르티코, 반복 기둥, 계단식 베이스가 섞여 있어서 LLM의 구조 이해를 보기 좋음
- 약한 결과도 “돔 있는 건물” 정도는 나오지만, 좋은 결과는 둥근 본체와 사각 전면부의 관계까지 맞춰야 해서 차이가 확 드러남
결과만 보면 구글 앤티그래비티 2.0과 제미나이 3.5 플래시 하이가 자율 실행 기준 1등임
- 품질 점수는 4.5/5로 최고였고, 실행 시간은 약 12분이라 속도 점수는 1/5로 낮았음
- 이 조합은 참고 이미지만 보고 눈대중으로 만들지 않고, 실제 판테온 치수를 찾아 로툰다, 돔, 포르티코, 오큘러스 파라미터에 반영함
- 다른 자율 에이전트들이 놓친 핵심 디테일도 구현했는데, 판테온 내부 돔의 5개 링, 28개 코퍼 천장 패턴을 OpenSCAD로 만든 게 제일 컸음

❗중요

> 이 벤치마크에서 제일 흥미로운 수치는 “가장 빠른 도구가 가장 좋은 결과를 낸 게 아니다”라는 점임. 커서는 제일 빨랐지만 품질 1.4/5였고, 앤티그래비티는 느렸지만 4.5/5로 가장 강했음.

코덱스 5.5 하이는 디테일 밀도가 가장 높았지만, 최종 결과에서 뼈아픈 문제가 터짐
- 로툰다, 돔 리브, 오큘러스, 석조 밴드, 전면 포르티코, 기둥, 베이스 디테일, 엔태블러처의 M AGRIPPA L F COS TERTIVM FECIT 문구까지 넣음
- OpenSCAD에서 텍스트는 그냥 장식이 아니라 배치, 압출, 방향, 두께까지 맞춰야 해서 꽤 까다로운 디테일임
- 그런데 렌더링 미리보기는 좋아 보였지만 최종 STL에서 포르티코 지붕과 엔태블러처 주변에 이상한 면이 생겨 점수가 3.0/5로 내려감
클로드 계열은 결과 성향이 갈렸음
- Claude Code 2.1 / Sonnet 4.6은 원래 자율 실행 배치에서는 가장 깔끔한 모델이었고, 돔, 드럼, 포르티코, 기둥 구성이 하나의 건물처럼 읽혔음
- 대신 속도가 느렸고, 품질은 3.4/5로 평가됨. 괜찮은 근사치지만 건축 복원 모델이라고 부를 수준은 아님
- Claude Code 2.1 / Opus 4.7은 구조는 커서보다 낫고 전면부와 계단식 베이스도 더 명확했지만, 색과 시각적 위계가 단조로워 3.0/5에 그침
커서 Composer 2.5는 제일 빠른 대신 결과가 가장 약했음
- 넓은 의미의 로툰다, 돔, 포르티코, 기둥은 잡았지만 판테온 특유의 비례와 재료감, 건축적 디테일은 많이 빠짐
- 빠르게 초안 뽑는 용도로는 의미가 있지만, 공개 가능한 3D 모델까지 가려면 후속 수정이 많이 필요해 보임
ModelRift와 제미나이 플래시 3.0 조합은 “사람이 중간에 시각 피드백을 주는” 방식으로 3.8/5를 받음
- 완전 자율 벤치마크는 아니고, 브라우저에서 렌더를 보고 화살표나 메모를 달아 AI에게 다시 수정시키는 Annotation Mode를 사용함
- 약 10분이 걸렸고 클로드 코드보다 대략 2배 느린 수준이라 속도 점수는 낮았지만, 포르티코, 기둥 배치, 지붕, 돔 리브, 전체 매스는 꽤 일관되게 개선됨
- 공간 문제는 “왼쪽 기둥 간격이 이상함”을 텍스트로 길게 설명하는 것보다, 렌더 위에 바로 표시하는 게 훨씬 정확하다는 얘기
OpenSCAD는 LLM 생성용 3D 타깃으로 꽤 잘 버텼음
- 모델이 “반지름 기준으로 기둥 28개 반복”, “돔에서 오큘러스 빼기”, “계단식 링 쌓기” 같은 구조를 코드로 직접 표현할 수 있음
- 결과물이 텍스트라서 검사, 재현, 수정이 쉽고, OpenSCAD CLI로 PNG 미리보기를 뽑아 반복 개선하기도 좋음
- Blender MCP 같은 UI 제어 방식은 유용하지만, CAD형 작업에선 장면 상태를 계속 추적해야 해서 간접성이 커짐

⚠️주의

> PNG 미리보기와 최종 STL은 같은 검증이 아님. 코덱스 사례처럼 렌더 루프에서는 좋아 보였는데 출력 메시에서 깨지는 일이 생길 수 있어서, 실제 프린팅이나 배포 전에는 STL 별도 검사가 필요함.

가장 큰 결론은 “도구 호출 능력”보다 “기하 판단력”이 병목이었다는 것
- 모든 시스템이 macOS PATH에 있는 OpenSCAD를 문제없이 호출했고, PNG 렌더를 만들며 반복도 했음
- 차이는 참고 이미지를 얼마나 구조적으로 해석했는지, 카메라와 비례를 얼마나 잘 잡았는지, 최종 메시까지 깨끗하게 냈는지에서 벌어짐
- 완전 자율 생성은 많이 올라왔지만, 판테온 같은 공간 CAD 작업은 아직 사람이 렌더를 보며 짚어주는 루프가 확실히 강함

기술 맥락

여기서 OpenSCAD가 중요한 이유는 LLM이 다루기 쉬운 형태의 CAD 언어이기 때문이에요. 일반 3D 툴처럼 화면 안의 오브젝트 상태를 계속 기억하며 조작하는 게 아니라, 반복문과 파라미터로 건축 구조를 설명할 수 있거든요.
판테온 과제가 재밌는 이유는 “예쁜 3D 이미지”가 아니라 “구조가 맞는 3D 코드”를 요구하기 때문이에요. 돔, 오큘러스, 주랑, 계단식 베이스는 각각 따로 만들 수 있지만, 이걸 한 건물처럼 보이게 하려면 비례와 위치 관계를 계속 맞춰야 해요.
앤티그래비티가 높은 점수를 받은 건 모델 자체만 좋아서가 아니라, 실제 치수를 찾아 파라미터에 넣고 렌더를 보며 수정하는 흐름을 탔기 때문이에요. 특히 5개 링과 28개 코퍼 천장처럼 반복 규칙이 있는 구조는 OpenSCAD와 LLM 조합이 힘을 받는 지점이에요.
반대로 코덱스 사례는 실무에서 조심해야 할 포인트를 잘 보여줘요. 미리보기 렌더가 괜찮아도 최종 STL 메시가 깨질 수 있으니, 3D 프린팅이나 모델 배포 파이프라인에서는 렌더 확인과 메시 검증을 분리해서 봐야 해요.
결국 이 벤치마크는 “AI가 CAD를 완전히 대체한다”는 얘기보다는, 코드 기반 CAD와 시각 피드백 루프를 붙이면 사람이 직접 모델링하지 않아도 꽤 높은 초안을 얻을 수 있다는 신호에 가까워요. 지금 단계에선 완전 자율보다 사람이 렌더 위에서 방향을 찍어주는 방식이 더 실용적이에요.

이 벤치마크의 포인트는 어떤 모델이 제일 똑똑하냐보다, 텍스트 기반 CAD와 에이전트 루프가 어디까지 왔는지 보여준다는 데 있음. 특히 미리보기 PNG가 좋아 보여도 최종 STL이 깨질 수 있다는 대목은 실제 3D 프린팅이나 CAD 자동화에 바로 꽂히는 경고임.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

앤티그래비티 2.0, OpenSCAD 건축 3D LLM 벤치마크 1위

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

앤티그래비티 2.0, OpenSCAD 건축 3D LLM 벤치마크 1위

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사