본문으로 건너뛰기
피드

챗GPT 5.5 프로가 박사급 조합론 연구를 2시간 안에 해냈다는 수학자의 기록

ai-ml 약 10분

수학자 티머시 가워스가 ChatGPT 5.5 Pro로 조합론 문제를 실험한 결과, 모델이 기존 연구의 상한을 개선하고 박사 논문 한 장에 들어갈 만한 비자명한 확장을 만들어냈다고 기록했다. 특히 아이작 라자고팔의 기존 프레임워크 위에서 지수적 의존성을 다항식 수준으로 낮추는 아이디어가 나왔고, 당사자도 거의 맞는 것으로 평가했다.

  • 1

    ChatGPT 5.5 Pro는 17분 5초 만에 네이선슨 문제의 이차 상한 구성을 제안함

  • 2

    이후 일반 k에 대해 기존 지수 상한을 개선하고, 2시간 안에 박사급 조합론 결과로 볼 만한 내용을 작성함

  • 3

    아이작 라자고팔은 모델이 k-dissociated sets를 활용한 독창적이고 영리한 아이디어를 냈다고 평가함

  • 4

    가워스는 초급 박사과정 학생에게 ‘쉬운 공개 문제’를 주는 방식이 더 어려워질 수 있다고 봄

챗GPT가 조합론 공개 문제를 건드린 방식

  • 수학자 티머시 가워스는 ChatGPT 5.5 Pro를 써보고, LLM의 수학 능력 평가를 꽤 크게 올려야겠다고 느낌

    • 모델이 약 1시간 정도 만에 박사급 연구로 볼 만한 결과를 냈고, 가워스 본인은 심각한 수학적 입력을 거의 넣지 않았다고 함
    • 이전에도 LLM이 에르되시 문제 일부를 풀었다는 얘기는 있었지만, “문헌에 이미 답이 있던 걸 찾아낸 것 아니냐”는 식으로 웃어넘길 여지가 있었음
    • 그런데 이제는 인간 수학자가 놓친 쉬운 논증을 LLM이 찾아낼 가능성을 진지하게 봐야 하는 단계로 왔다는 게 글의 출발점임
  • 가워스가 고른 실험 대상은 멜 네이선슨의 additive number theory 논문에 나온 문제들이었음

    • 조합론 논문에는 새 파라미터를 정의하고 자연스럽게 따라오는 질문들이 많이 생기는데, 저자가 각 질문에 1~2주씩 쓰기는 어려움
    • 그래서 이런 공개 문제들은 원래 초보 연구자가 첫 성과를 내기 좋은 훈련장 역할을 했음
    • 가워스의 표현대로라면 이제 기준이 바뀜. “누가 문제를 냈다”로는 부족하고, “LLM이 바로 못 풀 만큼 어려운가”가 새 기준이 될 수 있음
  • 첫 번째 실험에서 ChatGPT 5.5 Pro는 17분 5초 생각한 뒤 네이선슨의 경계값을 개선하는 구성을 냄

    • 문제는 집합 A의 크기와 sumset의 크기를 맞추려면 얼마나 큰 지름이 필요한가였음
    • 네이선슨은 특정 상한을 보였고, ChatGPT는 이차 상한을 주는 구성을 제안함
    • 이차 상한은 명백히 최선에 가까운 형태라서, 단순한 말장난이 아니라 실제 수학적 개선으로 볼 수 있었음
  • 모델의 핵심 아이디어는 기존 구성을 다른 언어로 재해석한 뒤 더 효율적인 재료를 끼워 넣는 쪽이었음

    • 네이선슨의 구성은 Sidon set과 arithmetic progression을 조합하는 방식으로 볼 수 있음
    • ChatGPT는 더 효율적인 Sidon set을 사용해 같은 목표를 더 작은 지름으로 달성함
    • 가워스는 이게 모델이 정말 기존 논증을 재기술한 건지, 아니면 패턴을 다른 방식으로 조립한 건지는 말하기 어렵다고 봄

중요

> 여기서 무서운 포인트는 모델이 ‘정답을 검색’한 게 아니라, 기존 증명 프레임을 재해석하고 더 나은 구성 요소로 갈아 끼운 것처럼 보였다는 점임.

일반화된 문제에서 더 큰 일이 벌어짐

  • 가워스는 이어서 restricted sumset 버전도 시켰고, 모델은 별 어려움 없이 같은 방식으로 처리함

    • 이후 두 결과를 하나의 note 형태로 합쳐 중복을 줄이는 작업까지 시킴
    • 여기까지는 “좋은 연구 보조자” 느낌에 가까움
  • 진짜 흥미로운 부분은 일반 k에 대한 문제였음

    • k=2에서는 에르되시와 세메레디의 결과 덕분에 어떤 크기를 만들어야 하는지 정확히 알고 있었음
    • 일반 k에서는 가능한 sumset 크기 집합을 완전히 모르는 문제가 있어서, 가워스도 큰 기대를 하지 않았음
    • 기존에는 MIT 학생 아이작 라자고팔이 각 고정 k에 대해 지수적 의존성을 보인 상태였음
  • ChatGPT는 먼저 라자고팔의 상한을 더 타이트하게 만드는 시도를 함

    • 16분 41초 뒤 기존 결과를 개선하는 논증을 냈고, 가워스가 preprint 스타일로 써달라고 하자 47분 39초가 더 걸림
    • 가워스는 이를 네이선슨에게 보냈고, 네이선슨은 라자고팔에게 전달함
    • 라자고팔은 그 결과가 맞아 보인다고 평가함
  • 이후 가워스가 더 욕심을 내서 다항식 경계까지 가능한지 물었고, 모델은 더 강한 결과를 냄

    • 13분 33초 뒤 가능성이 있어 보이지만 확인해야 할 기술 명제가 있다고 답함
    • 9분 12초 동안 그 명제들을 체크했고, 다시 31분 40초 만에 preprint 형태로 정리함
    • 라자고팔은 이 결과를 거의 확실히 맞는 것으로 봤고, 단순한 라인별 검증이 아니라 아이디어 수준에서도 의미 있다고 평가함

라자고팔이 본 ‘진짜 기여’

  • 라자고팔의 평가가 꽤 강함. 첫 개선은 자기 작업의 routine modification에 가까웠지만, 다항식 개선은 인상적이었다고 함

    • 라자고팔은 “내가 1~2주 고민해서 떠올렸다면 매우 자랑스러웠을 아이디어”라고 표현함
    • ChatGPT는 비슷한 방법론을 쓰면서도 1시간도 안 돼 그 아이디어를 찾고 증명함
  • 핵심은 기하급수적으로 커지는 geometric series 비슷한 역할을 하는 집합을, 다항식 크기 구간 안에 욱여넣는 구성이었음

    • 기존 구성에는 원소 크기가 n에 대해 지수적으로 커지는 문제가 있었음
    • ChatGPT는 k-dissociated sets를 이용해 낮은 차수의 additive relation을 제어하는 방식으로 이를 대체함
    • 라자고팔은 이 아이디어가 뒤돌아보면 설명 가능하지만, 처음 떠올리는 건 상당히 영리하다고 봄
  • 모델이 만든 구성은 “half a geometric series squeezed into a polynomial interval”처럼 동작함

    • 기하급수열의 유용한 sumset 관계 일부를 유지하면서도 숫자 크기는 다항식 수준으로 낮춤
    • finite fields 기반의 Singer, Bose-Chowla 계열 구성과 연결되는 수학적 배경도 등장함
    • 결과적으로 기존 증명의 많은 구조를 유지하면서 병목이던 크기 의존성을 크게 줄인 셈임

연구 문화 쪽 질문이 더 큼

  • 가워스는 이 결과가 사람이 냈다면 출판 가능한 수준이라고 봄

    • 그렇다고 저널에 내는 게 의미 있느냐는 별개 문제임. 결과는 무료로 공개할 수 있고, 누구에게 credit을 줄지도 애매함
    • arXiv가 AI 작성 콘텐츠를 받지 않는 정책은 이해하지만, 그럼 AI가 만든 수학 결과를 어디에 둘 것인지가 문제로 남음
    • 인간 수학자가 correctness를 보증하거나, 더 좋게는 proof assistant로 형식 검증된 결과를 모으는 저장소가 필요할 수 있다고 제안함
  • 초급 박사과정 훈련도 흔들릴 수 있음

    • 원래 지도교수가 학생에게 “부드럽게 시작할 만한 공개 문제”를 주는 방식이 있었음
    • LLM이 그런 gentle problem을 풀 수 있다면, 새 연구자의 첫 진입 장벽은 더 높아짐
    • 다만 학생도 LLM을 쓸 수 있으므로, 앞으로의 과제는 “LLM 혼자 못 하는 걸 LLM과 함께 증명하기”에 가까워질 수 있음
  • 가워스는 수학 연구의 보상 구조도 바뀔 수 있다고 봄

    • 어떤 정리나 정의에 자기 이름이 붙는 식의 불멸성은 점점 어려워질 수 있음
    • 하지만 어려운 문제와 씨름하는 경험 자체는 여전히 가치가 있음
    • 직접 문제를 풀어본 사람일수록 AI가 낸 답이 이상할 때 알아차리고, AI와 협업하는 능력도 더 좋아질 가능성이 큼

ℹ️참고

> 이 글은 “수학자가 사라진다”는 식의 단순한 공포물이 아님. 오히려 문제 선택, 검증, 맥락 이해, AI와의 협업 능력이 연구자의 핵심 역량으로 이동할 수 있다는 관찰에 가까움.


기술 맥락

  • 이 사례에서 중요한 선택은 LLM을 계산기처럼 쓰는 게 아니라 연구 파트너처럼 문제의 구조를 바꾸게 한 점이에요. 가워스는 정답을 알려주지 않았고, 모델이 기존 논문과 공개 문제를 바탕으로 가능한 개선 방향을 탐색하게 했거든요.

  • ChatGPT가 의미 있어 보인 이유는 기존 증명의 병목을 찾아 대체 구성으로 바꿨기 때문이에요. 단순히 더 긴 증명을 쓴 게 아니라, 지수적으로 커지던 geometric series류 구성을 k-dissociated set 기반의 다항식 크기 구성으로 바꾸는 아이디어를 냈어요.

  • 검증 과정도 핵심이에요. 가워스가 직접 읽고, 네이선슨을 거쳐 라자고팔이 확인했기 때문에 이 결과가 그냥 AI 출력물이 아니라 수학 커뮤니티 안에서 검토된 후보 결과가 된 거예요.

  • 개발자 관점으로 보면 이건 코딩 에이전트와도 닮아 있어요. 좋은 사람이 좋은 문제를 고르고, 모델이 낸 산출물을 구조적으로 검증하고, 어디가 진짜 기여인지 판별할 때 결과물이 확 달라지거든요.

  • 그래서 앞으로 연구나 개발에서 중요한 건 모델이 답을 냈다는 사실보다, 그 답이 어떤 기존 구조를 재사용했고 어디서 새 아이디어를 넣었는지 추적하는 능력이 될 가능성이 커요.

이 글이 흥미로운 건 ‘LLM이 수학도 한다’ 수준의 감탄이 아니라, 연구 훈련과 학술 출판의 기준이 흔들리는 지점을 꽤 구체적으로 보여준다는 점임. 특히 사람의 역할이 문제 선택, 검증, 맥락화로 이동할 가능성이 선명하게 드러남.

댓글

댓글

댓글을 불러오는 중...

ai-ml

제미나이 도구 호출 능력을 2,600만 파라미터 모델로 증류한 니들 공개

Cactus Compute가 Gemini 3.1의 도구 호출 능력을 2,600만 파라미터짜리 초소형 모델 Needle로 증류해 공개했다. 맥이나 PC에서 로컬 파인튜닝까지 가능하고, 프로덕션 환경에서는 프리필 6,000 토큰/초, 디코드 1,200 토큰/초를 낸다고 주장한다. 개인용 AI 기기에서 함수 호출만 빠르게 처리하는 작은 모델 실험으로 보면 꽤 흥미로운 공개다.

ai-ml

딥시크 V4 인덱서, 6기가바이트 메모리로 백만 토큰까지 밀어붙인 논문

딥시크 V3.2와 V4의 압축 희소 어텐션에서 병목이 되는 인덱서 단계를 스트리밍 방식으로 바꿔, 기존 구현이 6만5536 토큰에서 메모리 부족으로 죽던 문제를 104만8576 토큰까지 확장했다. 핵심은 전체 점수 텐서를 만들지 않고 청크 단위로 top-k를 나눠 계산한 뒤 병합하는 방식이며, 단일 엔비디아 H200에서 피크 메모리 6.21기가바이트를 기록했다. 다만 논문은 인덱서 단계만 다루며, 실제 체크포인트 기반 종단간 성능이나 더 빠른 어텐션 커널을 주장하진 않는다.

ai-ml

챗지피티가 학습에 좋다던 유명 논문, 결국 철회됨

챗지피티가 학생 학습 성과에 큰 도움이 된다고 주장했던 논문이 출판 약 1년 만에 철회됐어. 스프링거 네이처는 분석의 불일치와 결론 신뢰 부족을 이유로 들었고, 문제의 논문은 이미 500회 넘게 인용된 뒤였어.

ai-ml

샘 올트먼, 법정에서 “머스크가 오픈AI 지배권을 자녀에게 넘기려 했다”고 증언

샘 올트먼이 캘리포니아 오클랜드 연방법원 배심원 앞에서 일론 머스크가 오픈AI의 장기 지배권을 원했고, 사망 후엔 자녀에게 넘기는 방안까지 언급했다고 증언했다. 머스크는 오픈AI가 비영리로 출발했는데도 영리화됐다고 소송을 제기했지만, 올트먼은 오히려 머스크가 영리 전환과 테슬라 편입을 밀었다는 취지로 반박했다.

ai-ml

혜전대, AI로 스마트팜 생산·가공·유통 교육 모델 만든다

혜전대가 2026년 교육부·한국연구재단의 AID 전환 중점 전문대학 지원사업에 충남 지역 연합형 사업단으로 선정됐다. 연암대와 역할을 나눠 스마트팜 생산부터 가공·유통까지 전주기를 디지털화하는 교육 모델을 만들겠다는 내용이다.