---
title: "챗GPT 5.5 프로가 박사급 조합론 연구를 2시간 안에 해냈다는 수학자의 기록"
published: 2026-05-09T02:41:42.000Z
canonical: https://jeff.news/article/2531
---
# 챗GPT 5.5 프로가 박사급 조합론 연구를 2시간 안에 해냈다는 수학자의 기록

수학자 티머시 가워스가 ChatGPT 5.5 Pro로 조합론 문제를 실험한 결과, 모델이 기존 연구의 상한을 개선하고 박사 논문 한 장에 들어갈 만한 비자명한 확장을 만들어냈다고 기록했다. 특히 아이작 라자고팔의 기존 프레임워크 위에서 지수적 의존성을 다항식 수준으로 낮추는 아이디어가 나왔고, 당사자도 거의 맞는 것으로 평가했다.

## 챗GPT가 조합론 공개 문제를 건드린 방식

- 수학자 티머시 가워스는 ChatGPT 5.5 Pro를 써보고, LLM의 수학 능력 평가를 꽤 크게 올려야겠다고 느낌
  - 모델이 약 1시간 정도 만에 박사급 연구로 볼 만한 결과를 냈고, 가워스 본인은 심각한 수학적 입력을 거의 넣지 않았다고 함
  - 이전에도 LLM이 에르되시 문제 일부를 풀었다는 얘기는 있었지만, “문헌에 이미 답이 있던 걸 찾아낸 것 아니냐”는 식으로 웃어넘길 여지가 있었음
  - 그런데 이제는 인간 수학자가 놓친 쉬운 논증을 LLM이 찾아낼 가능성을 진지하게 봐야 하는 단계로 왔다는 게 글의 출발점임

- 가워스가 고른 실험 대상은 멜 네이선슨의 additive number theory 논문에 나온 문제들이었음
  - 조합론 논문에는 새 파라미터를 정의하고 자연스럽게 따라오는 질문들이 많이 생기는데, 저자가 각 질문에 1~2주씩 쓰기는 어려움
  - 그래서 이런 공개 문제들은 원래 초보 연구자가 첫 성과를 내기 좋은 훈련장 역할을 했음
  - 가워스의 표현대로라면 이제 기준이 바뀜. “누가 문제를 냈다”로는 부족하고, “LLM이 바로 못 풀 만큼 어려운가”가 새 기준이 될 수 있음

- 첫 번째 실험에서 ChatGPT 5.5 Pro는 17분 5초 생각한 뒤 네이선슨의 경계값을 개선하는 구성을 냄
  - 문제는 집합 A의 크기와 sumset의 크기를 맞추려면 얼마나 큰 지름이 필요한가였음
  - 네이선슨은 특정 상한을 보였고, ChatGPT는 이차 상한을 주는 구성을 제안함
  - 이차 상한은 명백히 최선에 가까운 형태라서, 단순한 말장난이 아니라 실제 수학적 개선으로 볼 수 있었음

- 모델의 핵심 아이디어는 기존 구성을 다른 언어로 재해석한 뒤 더 효율적인 재료를 끼워 넣는 쪽이었음
  - 네이선슨의 구성은 Sidon set과 arithmetic progression을 조합하는 방식으로 볼 수 있음
  - ChatGPT는 더 효율적인 Sidon set을 사용해 같은 목표를 더 작은 지름으로 달성함
  - 가워스는 이게 모델이 정말 기존 논증을 재기술한 건지, 아니면 패턴을 다른 방식으로 조립한 건지는 말하기 어렵다고 봄

> [!IMPORTANT]
> 여기서 무서운 포인트는 모델이 ‘정답을 검색’한 게 아니라, 기존 증명 프레임을 재해석하고 더 나은 구성 요소로 갈아 끼운 것처럼 보였다는 점임.

## 일반화된 문제에서 더 큰 일이 벌어짐

- 가워스는 이어서 restricted sumset 버전도 시켰고, 모델은 별 어려움 없이 같은 방식으로 처리함
  - 이후 두 결과를 하나의 note 형태로 합쳐 중복을 줄이는 작업까지 시킴
  - 여기까지는 “좋은 연구 보조자” 느낌에 가까움

- 진짜 흥미로운 부분은 일반 k에 대한 문제였음
  - k=2에서는 에르되시와 세메레디의 결과 덕분에 어떤 크기를 만들어야 하는지 정확히 알고 있었음
  - 일반 k에서는 가능한 sumset 크기 집합을 완전히 모르는 문제가 있어서, 가워스도 큰 기대를 하지 않았음
  - 기존에는 MIT 학생 아이작 라자고팔이 각 고정 k에 대해 지수적 의존성을 보인 상태였음

- ChatGPT는 먼저 라자고팔의 상한을 더 타이트하게 만드는 시도를 함
  - 16분 41초 뒤 기존 결과를 개선하는 논증을 냈고, 가워스가 preprint 스타일로 써달라고 하자 47분 39초가 더 걸림
  - 가워스는 이를 네이선슨에게 보냈고, 네이선슨은 라자고팔에게 전달함
  - 라자고팔은 그 결과가 맞아 보인다고 평가함

- 이후 가워스가 더 욕심을 내서 다항식 경계까지 가능한지 물었고, 모델은 더 강한 결과를 냄
  - 13분 33초 뒤 가능성이 있어 보이지만 확인해야 할 기술 명제가 있다고 답함
  - 9분 12초 동안 그 명제들을 체크했고, 다시 31분 40초 만에 preprint 형태로 정리함
  - 라자고팔은 이 결과를 거의 확실히 맞는 것으로 봤고, 단순한 라인별 검증이 아니라 아이디어 수준에서도 의미 있다고 평가함

## 라자고팔이 본 ‘진짜 기여’

- 라자고팔의 평가가 꽤 강함. 첫 개선은 자기 작업의 routine modification에 가까웠지만, 다항식 개선은 인상적이었다고 함
  - 라자고팔은 “내가 1~2주 고민해서 떠올렸다면 매우 자랑스러웠을 아이디어”라고 표현함
  - ChatGPT는 비슷한 방법론을 쓰면서도 1시간도 안 돼 그 아이디어를 찾고 증명함

- 핵심은 기하급수적으로 커지는 geometric series 비슷한 역할을 하는 집합을, 다항식 크기 구간 안에 욱여넣는 구성이었음
  - 기존 구성에는 원소 크기가 n에 대해 지수적으로 커지는 문제가 있었음
  - ChatGPT는 k-dissociated sets를 이용해 낮은 차수의 additive relation을 제어하는 방식으로 이를 대체함
  - 라자고팔은 이 아이디어가 뒤돌아보면 설명 가능하지만, 처음 떠올리는 건 상당히 영리하다고 봄

- 모델이 만든 구성은 “half a geometric series squeezed into a polynomial interval”처럼 동작함
  - 기하급수열의 유용한 sumset 관계 일부를 유지하면서도 숫자 크기는 다항식 수준으로 낮춤
  - finite fields 기반의 Singer, Bose-Chowla 계열 구성과 연결되는 수학적 배경도 등장함
  - 결과적으로 기존 증명의 많은 구조를 유지하면서 병목이던 크기 의존성을 크게 줄인 셈임

## 연구 문화 쪽 질문이 더 큼

- 가워스는 이 결과가 사람이 냈다면 출판 가능한 수준이라고 봄
  - 그렇다고 저널에 내는 게 의미 있느냐는 별개 문제임. 결과는 무료로 공개할 수 있고, 누구에게 credit을 줄지도 애매함
  - arXiv가 AI 작성 콘텐츠를 받지 않는 정책은 이해하지만, 그럼 AI가 만든 수학 결과를 어디에 둘 것인지가 문제로 남음
  - 인간 수학자가 correctness를 보증하거나, 더 좋게는 proof assistant로 형식 검증된 결과를 모으는 저장소가 필요할 수 있다고 제안함

- 초급 박사과정 훈련도 흔들릴 수 있음
  - 원래 지도교수가 학생에게 “부드럽게 시작할 만한 공개 문제”를 주는 방식이 있었음
  - LLM이 그런 gentle problem을 풀 수 있다면, 새 연구자의 첫 진입 장벽은 더 높아짐
  - 다만 학생도 LLM을 쓸 수 있으므로, 앞으로의 과제는 “LLM 혼자 못 하는 걸 LLM과 함께 증명하기”에 가까워질 수 있음

- 가워스는 수학 연구의 보상 구조도 바뀔 수 있다고 봄
  - 어떤 정리나 정의에 자기 이름이 붙는 식의 불멸성은 점점 어려워질 수 있음
  - 하지만 어려운 문제와 씨름하는 경험 자체는 여전히 가치가 있음
  - 직접 문제를 풀어본 사람일수록 AI가 낸 답이 이상할 때 알아차리고, AI와 협업하는 능력도 더 좋아질 가능성이 큼

> [!NOTE]
> 이 글은 “수학자가 사라진다”는 식의 단순한 공포물이 아님. 오히려 문제 선택, 검증, 맥락 이해, AI와의 협업 능력이 연구자의 핵심 역량으로 이동할 수 있다는 관찰에 가까움.

---

## 기술 맥락

- 이 사례에서 중요한 선택은 LLM을 계산기처럼 쓰는 게 아니라 연구 파트너처럼 문제의 구조를 바꾸게 한 점이에요. 가워스는 정답을 알려주지 않았고, 모델이 기존 논문과 공개 문제를 바탕으로 가능한 개선 방향을 탐색하게 했거든요.

- ChatGPT가 의미 있어 보인 이유는 기존 증명의 병목을 찾아 대체 구성으로 바꿨기 때문이에요. 단순히 더 긴 증명을 쓴 게 아니라, 지수적으로 커지던 geometric series류 구성을 k-dissociated set 기반의 다항식 크기 구성으로 바꾸는 아이디어를 냈어요.

- 검증 과정도 핵심이에요. 가워스가 직접 읽고, 네이선슨을 거쳐 라자고팔이 확인했기 때문에 이 결과가 그냥 AI 출력물이 아니라 수학 커뮤니티 안에서 검토된 후보 결과가 된 거예요.

- 개발자 관점으로 보면 이건 코딩 에이전트와도 닮아 있어요. 좋은 사람이 좋은 문제를 고르고, 모델이 낸 산출물을 구조적으로 검증하고, 어디가 진짜 기여인지 판별할 때 결과물이 확 달라지거든요.

- 그래서 앞으로 연구나 개발에서 중요한 건 모델이 답을 냈다는 사실보다, 그 답이 어떤 기존 구조를 재사용했고 어디서 새 아이디어를 넣었는지 추적하는 능력이 될 가능성이 커요.

## 핵심 포인트

- ChatGPT 5.5 Pro는 17분 5초 만에 네이선슨 문제의 이차 상한 구성을 제안함
- 이후 일반 k에 대해 기존 지수 상한을 개선하고, 2시간 안에 박사급 조합론 결과로 볼 만한 내용을 작성함
- 아이작 라자고팔은 모델이 k-dissociated sets를 활용한 독창적이고 영리한 아이디어를 냈다고 평가함
- 가워스는 초급 박사과정 학생에게 ‘쉬운 공개 문제’를 주는 방식이 더 어려워질 수 있다고 봄

## 인사이트

이 글이 흥미로운 건 ‘LLM이 수학도 한다’ 수준의 감탄이 아니라, 연구 훈련과 학술 출판의 기준이 흔들리는 지점을 꽤 구체적으로 보여준다는 점임. 특히 사람의 역할이 문제 선택, 검증, 맥락화로 이동할 가능성이 선명하게 드러남.