AI가 수학을 ‘풀었다’고 말하기 전에 봐야 할 것들
수학자 David Bessis가 AI for math 열풍을 보며, 수학의 가치는 정리 생산이 아니라 이해와 개념 형성에 있다는 주장을 길게 펼친 글이다. First Proof 벤치마크, Lean 자동 형식화, Mathlib 논쟁을 통해 AI가 문제 풀이에서는 빠르게 강해져도 인간이 읽고 이어갈 수 있는 수학을 만드는 일은 전혀 다른 문제라고 짚는다.
- 1
수학의 산출물은 정리 자체가 아니라 명료함과 이해라는 Thurston의 관점을 중심에 둠
- 2
AI for math 스타트업과 대형 AI 랩이 ‘수학 해결’ 프레임으로 과도한 기대를 만들고 있다고 비판함
- 3
First Proof 10문제 중 6~8개가 여러 팀 시도 조합으로 풀렸지만, 검증과 해석에는 여전히 인간 수학자가 필요했음
- 4
Lean 자동 형식화가 맞는 증명을 만들더라도 Mathlib에 들어갈 재사용 가능한 지식으로 정리하는 canonization은 별도 문제임
- 5
저자는 수학 자동화 수준을 자율주행 단계처럼 세분화해야 과장된 ‘수학 정복’ 헤드라인을 막을 수 있다고 제안함
개발자에게는 AI 코딩 논쟁과 거의 같은 구조로 읽힘. 컴파일되는 코드와 유지보수 가능한 코드가 다르듯, 검증된 형식 증명과 수학 커뮤니티가 이해하고 재사용할 수 있는 지식은 다르다는 얘기임.
관련 기사
바이트댄스, AI 에이전트가 배포 뒤에도 똑똑해지는 ‘확장 법칙’ 주장
바이트댄스 시드 AI 팀이 AI 에이전트가 실제 업무 환경에서 장기간 상호작용할수록 성능이 예측 가능한 곡선으로 좋아진다는 연구를 내놨다. 연구진은 134개 장기 과제와 3만8000시간 규모의 상호작용 데이터를 분석했고, 배포 후 학습이 사전 학습 이후의 새 스케일링 축이 될 수 있다고 주장했다.
중국에서 ‘1인 창업자+AI’ 모델 급증…1인 기업 1600만개 돌파
중국에서 AI를 디지털 직원처럼 활용하는 1인 기업이 빠르게 늘고 있다. 코트라에 따르면 지난해 6월 기준 중국 1인 유한책임회사는 1600만개를 넘었고, 지난해 상반기 신규 등록 1인 기업은 약 290만개로 전년 대비 47% 증가했다.
구글 agents-cli로 AI 에이전트 제작·평가·배포 흐름 가져다 쓰기
구글의 agents-cli는 코딩 에이전트 자체가 아니라, 기존 코딩 도구에 에이전트 제작·평가·배포 절차를 붙여주는 CLI다. 같은 글에서는 Anthropic Fable 5 재개, 구글 DESIGN.md를 활용한 AI 디자인 맥락 주입 방식도 함께 다뤘고, 특히 프로덕션에서는 맥락을 통째로 넣는 방식보다 필요한 부분만 불러오는 방식이 더 유리할 수 있다는 점이 핵심이다.
AMD MI355X에서 GLM5.2 추론을 블랙웰보다 2배 이상 싸게 굴린 사례
Wafer가 AMD MI355X에서 GLM5.2를 서빙하며 노드당 2626 tok/s, 싱글 스트림 213 tok/s를 달성했다고 공개했다. NVIDIA Blackwell 대비 성능은 일부 낮지만 GPU 비용이 훨씬 낮아 성능 대비 비용에서는 AMD가 유리하다는 주장이다.
미스트랄, Lean 증명 특화 모델 ‘Leanstral 1.5’ 공개
미스트랄이 Lean 4 기반 증명·검증 작업에 특화된 Leanstral 1.5를 공개했다. 119B 전체 파라미터 중 6B만 활성화되는 구조로, miniF2F 100%, PutnamBench 587/672, FATE-H 87%, FATE-X 34% 같은 성적을 냈다.
댓글
댓글
댓글을 불러오는 중...