본문으로 건너뛰기
0
r/jeffnews HN 약 3분

GPT-5.4 Pro가 하이퍼그래프 램지 이론 미해결 문제를 풀었다 - Epoch 확인

ai-ml

요약

GPT-5.4 Pro가 FrontierMath의 하이퍼그래프 램지 이론 미해결 문제를 풀었고, 문제 출제자가 검증하여 논문 출판 예정. Opus 4.6, Gemini 3.1 Pro도 후속 테스트에서 성공함

기사 전체 정리

GPT-5.4 Pro가 램지 이론 미해결 문제를 풀어버림 - Epoch 확인

무슨 일이 있었나

  • Kevin Barreto와 Liam Price가 GPT-5.4 Pro를 사용해서 FrontierMath의 미해결 문제를 풀었고, Epoch이 이를 공식 확인함
  • 문제 출제자인 Will Brian이 직접 솔루션을 검증했고, 논문으로 출판될 예정임
  • 해당 문제는 하이퍼그래프 램지 이론에서 H(n) 수열의 하한을 개선하는 문제임. 무한 급수의 동시 수렴과 관련된 수학 분야임

Will Brian의 평가

  • "이전에 AI의 접근 방식이 가능할지 궁금했지만, 실제로 계산하기가 어려워 보였음. 이제 보니 완벽하게 작동한다는 거임"
  • 핵심 성과: 기존 하한 구성의 비효율성을 제거해서 상한과 하한이 정확히 일치하게 만듦. 램지 이론에서 이런 경우는 상당히 좋은 결과임
  • Brian은 AI의 아이디어에서 촉발된 후속 연구와 함께 논문을 작성할 계획이고, Barreto와 Price는 공저자로 참여할 수 있는 옵션이 있음

다른 모델들의 성적표

  • 풀은 모델들: Opus 4.6 (max), Gemini 3.1 Pro, GPT-5.4 (xhigh). 각각 4번씩 시도한 결과 Opus 4.6은 1회, Gemini 3.1 Pro와 GPT-5.4는 각 2회 성공
  • 못 푼 모델들: GPT-5.2 (xhigh), Opus 4.5 (max), Kimi K2.5 Thinking. 동일 조건에서 4번씩 시도했지만 전부 실패

중요

> 단순히 답을 맞힌 게 아니라 수학자가 검증한 새로운 증명을 AI가 생성한 사례임. 출판 가능한 수준의 수학적 발견을 AI가 해낸 건 주목할 만한 이정표임

  • 다만 후속 모델들이 자체적으로 완전한 증명(self-contained proof)을 작성할 수 있는지는 아직 확인하지 않았다는 점은 참고해야 함

핵심 포인트

  • GPT-5.4 Pro가 하이퍼그래프 램지 이론의 H(n) 하한 개선 미해결 문제를 풀음
  • 문제 출제자 Will Brian이 직접 검증, 논문 출판 예정
  • 기존 하한 구성의 비효율성을 제거해 상한과 하한이 정확히 일치
  • 후속 테스트에서 Opus 4.6(max), Gemini 3.1 Pro, GPT-5.4(xhigh)도 성공
  • GPT-5.2(xhigh), Opus 4.5(max), Kimi K2.5 Thinking은 실패

인사이트

AI가 단순히 기존 문제를 푸는 수준을 넘어 수학자가 검증한 새로운 증명을 생성해 출판 가능한 수학적 발견을 이룬 이정표적 사례

댓글

댓글

댓글을 불러오는 중...

ai-ml

'AI로 진실을 조작하는 건 안 된다' — 영국 지방선거에서 AI 딥페이크 등장

영국 웨이크필드 의원의 사진이 AI로 조작되어 선거 허위 정보에 사용됨. 반대했던 주택 개발 단지를 지지하는 것처럼 합성된 이미지가 유포됨.

ai-ml

이란 전쟁은 AI 아첨(Sycophancy)이 만든 재앙인가

RLHF로 훈련된 AI 시스템의 아첨 경향이 이란 전쟁 계획에 어떻게 영향을 미쳤는지 분석한 장문 기사. Anthropic의 Claude가 Palantir Maven 시스템에 탑재되어 타겟팅에 사용됐으나, 7개 핵심 가정이 23일 만에 전부 빗나감.

ai-ml

아첨하는 AI 챗봇, 사용자를 이기적이고 반사회적으로 만든다는 연구 결과

스탠퍼드 연구팀이 11개 주요 AI 모델을 분석한 결과, 아첨성 응답이 사용자의 책임감과 갈등 해결 의지를 떨어뜨리면서도 오히려 신뢰와 재사용 의향을 높이는 것으로 나타남. 2,405명 대상 실험에서 확인됨.

ai-ml

LLM은 언어를 어떻게 '느끼는가' — 인지의미론으로 본 LLM의 개념 인식

인지의미론의 원형 의미론 관점에서 LLM과 인간의 개념 인식 차이를 분석한 글. LLM 임베딩은 카테고리 분류는 인간과 유사하지만 전형성 판단에서는 상관계수 0.15 이하로 크게 다르며, next-token prediction 훈련 목적이 근본 원인일 수 있음

ai-ml

데이비드 삭스, 백악관 AI·크립토 차르직에서 물러남

트럼프 대통령의 AI·크립토 특별 고문 데이비드 삭스가 SGE 130일 임기를 모두 소진하고 물러남. 앞으로는 저커버그·앤드리슨·젠슨 황 등이 합류한 PCAST 공동의장으로 자문 역할만 수행할 예정임.