Kimi 팀이 오픈소스로 푼 'Vendor Verifier' — 추론 벤더가 모델을 제대로 돌리는지 검증하는 도구
Kimi가 K2.6 모델 공개와 함께 오픈소스 모델을 돌리는 추론 프로바이더들의 구현 정확도를 검증하는 KVV(Kimi Vendor Verifier)를 공개함. Pre-Verification, OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench 등 6개 벤치로 KV cache 버그, 양자화 degradation, ToolCall JSON Schema 오류 등을 잡아내고, vLLM/SGLang/KTransformers 업스트림에 직접 패치를 기여함.
- 1
오픈소스 모델 생태계의 '3rd party API와 공식 API 간 점수 격차'가 특정 업체가 아닌 광범위한 현상으로 확인됨
- 2
Thinking 모드에서 Temperature=1.0, TopP=0.95를 API 레벨에서 강제해 1차 방어선 구축
- 3
AIME2025는 짧은 벤치에서 숨겨지는 KV cache 버그와 quantization degradation을 긴 출력으로 유도해 잡아냄
- 4
K2VV ToolCall은 트리거 일관성(F1)과 JSON Schema 정확도로 에이전트 툴 호출 오류의 복리 확산을 차단
- 5
vLLM, SGLang, KTransformers 업스트림에 직접 기여해 증상이 아닌 루트 원인을 수정
- 6
NVIDIA H20 8-GPU 서버 2대로 순차 실행 시 전체 평가 약 15시간, 체크포인트 resume과 자동 재시도 내장
오픈소스 LLM의 품질 책임 경계가 '가중치 공개'에서 '추론 엔진 업스트림 패치'까지 확장되고 있음을 보여주는 사례. 모델을 배포하는 팀이 벤더 정확도를 공개 리더보드로 추적하는 구조는 향후 오픈소스 LLM 신뢰성 확보의 레퍼런스가 될 가능성이 큼.
관련 기사
스코세이지도 생성형 AI로 스토리보드 만든다, 할리우드 금기가 흔들리는 중
마틴 스코세이지 감독이 독일 AI 스타트업 블랙포레스트랩스의 기술을 활용해 차기작 스토리보드를 만들었다고 밝혔다. 할리우드에서는 2023년 파업 이후 생성형 AI가 민감한 주제였지만, 거장 감독의 공개 지지로 제작 도구로서의 AI 논쟁이 다시 커지고 있다.
구글은 스페이스X GPU 11만 개를 빌리고, 미국 정부는 오픈AI 지분까지 들여다보는 중
미국 AI 경쟁이 모델 성능 싸움에서 GPU, 데이터센터, 정부 지분 구조까지 번지는 중이다. 구글은 스페이스X 데이터센터의 엔비디아 GPU 약 11만 개를 월 9억2000만 달러에 쓰기로 했고, 트럼프 행정부는 오픈AI 지분을 정부가 보유하는 방안까지 논의하고 있다.
AI 데이터센터 붐, 전기·물·땅을 얼마나 먹는지 숫자로 보면 꽤 세다
유엔대 보고서는 AI 데이터센터 확장이 전력, 물, 토지 사용을 빠르게 키우고 있다고 경고한다. 전 세계 데이터센터 전력 사용량은 448테라와트시 수준이고, 2030년에는 945테라와트시까지 늘어 전 세계 전력의 3%에 이를 수 있다는 분석이다. 다만 전문가들은 효율 개선, 온디바이스 컴퓨팅, 공공 AI, 환경 규제까지 함께 봐야 한다고 짚었다.
케임브리지대, AI가 설계한 범용 백신 1상 임상시험 완료
영국 케임브리지대 연구진이 주요 성분을 AI로 설계한 백신을 사람에게 시험한 결과를 발표했다. 목표는 코로나19, 사스, 메르스처럼 같은 계열의 여러 바이러스에 대응하는 범용 백신이며, 1상 시험에서는 안전성 확인에 초점이 맞춰졌다.
AI 답안이 로스쿨 교수 답안보다 더 낫다는 블라인드 테스트 결과
미국 14개 로스쿨의 계약법 교수 16명이 참여한 블라인드 평가에서 제미나이 2.5 프로와 노트북LM 답변이 인간 교수 답변보다 높은 평가를 받았다. 단순 암기가 아니라 가상 사례와 정책 질문처럼 법적 추론이 필요한 영역에서도 AI가 앞섰고, 유해한 오답 비율도 훨씬 낮았다.
댓글
댓글
댓글을 불러오는 중...