미스트랄, Lean 증명 특화 모델 ‘Leanstral 1.5’ 공개
미스트랄이 Lean 4 기반 증명·검증 작업에 특화된 Leanstral 1.5를 공개했다. 119B 전체 파라미터 중 6B만 활성화되는 구조로, miniF2F 100%, PutnamBench 587/672, FATE-H 87%, FATE-X 34% 같은 성적을 냈다.
- 1
Leanstral 1.5는 Apache-2.0 라이선스의 무료 모델이며 Hugging Face 가중치와 무료 API 엔드포인트로 제공됨
- 2
멀티턴 증명 환경과 코드 에이전트 환경에서 Lean 컴파일러 피드백을 받으며 증명을 반복하도록 학습됨
- 3
57개 오픈소스 저장소를 대상으로 47개 위반 속성을 찾았고, 그중 11개는 실제 버그였으며 5개는 GitHub에 보고되지 않았던 버그였음
LLM이 코드를 ‘그럴듯하게’ 쓰는 단계를 넘어, 형식 검증 도구와 붙어서 실제 버그를 찾는 방향으로 가고 있다는 신호가 꽤 강함. 아직 비용과 토큰 예산이 크지만, 검증 가능한 소프트웨어 개발 쪽에서는 무시하기 어려운 흐름임.
관련 기사
바이트댄스, AI 에이전트가 배포 뒤에도 똑똑해지는 ‘확장 법칙’ 주장
바이트댄스 시드 AI 팀이 AI 에이전트가 실제 업무 환경에서 장기간 상호작용할수록 성능이 예측 가능한 곡선으로 좋아진다는 연구를 내놨다. 연구진은 134개 장기 과제와 3만8000시간 규모의 상호작용 데이터를 분석했고, 배포 후 학습이 사전 학습 이후의 새 스케일링 축이 될 수 있다고 주장했다.
중국에서 ‘1인 창업자+AI’ 모델 급증…1인 기업 1600만개 돌파
중국에서 AI를 디지털 직원처럼 활용하는 1인 기업이 빠르게 늘고 있다. 코트라에 따르면 지난해 6월 기준 중국 1인 유한책임회사는 1600만개를 넘었고, 지난해 상반기 신규 등록 1인 기업은 약 290만개로 전년 대비 47% 증가했다.
구글 agents-cli로 AI 에이전트 제작·평가·배포 흐름 가져다 쓰기
구글의 agents-cli는 코딩 에이전트 자체가 아니라, 기존 코딩 도구에 에이전트 제작·평가·배포 절차를 붙여주는 CLI다. 같은 글에서는 Anthropic Fable 5 재개, 구글 DESIGN.md를 활용한 AI 디자인 맥락 주입 방식도 함께 다뤘고, 특히 프로덕션에서는 맥락을 통째로 넣는 방식보다 필요한 부분만 불러오는 방식이 더 유리할 수 있다는 점이 핵심이다.
AMD MI355X에서 GLM5.2 추론을 블랙웰보다 2배 이상 싸게 굴린 사례
Wafer가 AMD MI355X에서 GLM5.2를 서빙하며 노드당 2626 tok/s, 싱글 스트림 213 tok/s를 달성했다고 공개했다. NVIDIA Blackwell 대비 성능은 일부 낮지만 GPU 비용이 훨씬 낮아 성능 대비 비용에서는 AMD가 유리하다는 주장이다.
메타가 AI 인프라를 팔기 시작하면, 국내 클라우드 기업 가치도 다시 보일까
메타가 자체 구축한 GPU와 데이터센터를 외부에 판매하는 클라우드 사업을 검토하면서, AI 설비투자가 단순 비용이 아니라 수익 자산이 될 수 있다는 분석이 나왔어. 국내에서는 네이버와 삼성SDS 같은 클라우드 관련 기업의 가치가 재평가될 수 있다는 전망이 붙었지만, 글로벌 CSP와 같은 논리를 그대로 적용하긴 어렵다는 지적도 같이 나왔어.
댓글
댓글
댓글을 불러오는 중...