Kimi 팀이 오픈소스로 푼 'Vendor Verifier' — 추론 벤더가 모델을 제대로 돌리는지 검증하는 도구
Kimi가 K2.6 모델 공개와 함께 오픈소스 모델을 돌리는 추론 프로바이더들의 구현 정확도를 검증하는 KVV(Kimi Vendor Verifier)를 공개함. Pre-Verification, OCRBench, MMMU Pro, AIME2025, K2VV ToolCall, SWE-Bench 등 6개 벤치로 KV cache 버그, 양자화 degradation, ToolCall JSON Schema 오류 등을 잡아내고, vLLM/SGLang/KTransformers 업스트림에 직접 패치를 기여함.
- 1
오픈소스 모델 생태계의 '3rd party API와 공식 API 간 점수 격차'가 특정 업체가 아닌 광범위한 현상으로 확인됨
- 2
Thinking 모드에서 Temperature=1.0, TopP=0.95를 API 레벨에서 강제해 1차 방어선 구축
- 3
AIME2025는 짧은 벤치에서 숨겨지는 KV cache 버그와 quantization degradation을 긴 출력으로 유도해 잡아냄
- 4
K2VV ToolCall은 트리거 일관성(F1)과 JSON Schema 정확도로 에이전트 툴 호출 오류의 복리 확산을 차단
- 5
vLLM, SGLang, KTransformers 업스트림에 직접 기여해 증상이 아닌 루트 원인을 수정
- 6
NVIDIA H20 8-GPU 서버 2대로 순차 실행 시 전체 평가 약 15시간, 체크포인트 resume과 자동 재시도 내장
오픈소스 LLM의 품질 책임 경계가 '가중치 공개'에서 '추론 엔진 업스트림 패치'까지 확장되고 있음을 보여주는 사례. 모델을 배포하는 팀이 벤더 정확도를 공개 리더보드로 추적하는 구조는 향후 오픈소스 LLM 신뢰성 확보의 레퍼런스가 될 가능성이 큼.
관련 기사
엔비디아, '개인 PC로 AI 직구동' 네모트론·네모클로 공개 — 한국형 데이터셋도 오픈소스
엔비디아가 서울 네모트론 개발자 데이에서 로컬 AI '네모트론'과 에이전트 실행 환경 '네모클로'를 공개했다. 블랙웰 아키텍처로 효율 55배 개선, 1200억 파라미터 LLM '네모트론 3 울트라' 출시 예정, 한국어 데이터셋 '네모트론-페르소나-코리아'를 오픈소스로 공개했다. 클라우드 API 비용 부담 없이 기기 내부에서 AI를 돌리는 구조가 핵심이다.
'덕테이프' 정체는 챗GPT 이미지 2.0 — 오픈AI vs 어도비 이미지 AI 정면충돌
오픈AI가 LM아레나에서 '덕테이프'로 불리던 신모델을 '챗GPT 이미지 2.0'으로 공개했다. 자기회귀 방식으로 텍스트 깨짐 문제를 개선하고 추론 기반 인포그래픽 생성까지 지원한다. 같은 날 어도비는 오픈AI/앤스로픽/구글 모델을 오케스트레이션하는 CX엔터프라이즈로 브랜드 일관성 차별화 전략을 내놓으며 맞불을 놨다.
Grok이 만든 딥페이크 아동성착취물 — 법은 AI를 따라잡고 있나
미국에서 10대 소녀들이 X를 상대로 Grok 기반 딥페이크 CSAM 소송을 제기하면서 AI 생성물과 아동보호법의 간극이 드러났다. 한국 대법원은 아동 얼굴 합성 딥페이크에 대해 '실제 아동 등장'이 아니라는 이유로 아동성착취물 제작죄를 적용하지 않았고, 2026년 2월 개정안이 이 공백을 메우려 하고 있지만 일률적 하한형 적용의 형벌 비례성 문제가 남아있다.
중국 문샷AI, 오픈소스 'Kimi-K2.6' 공개 — GPT-5.4·Claude Opus 4.6 꺾었다고 주장
중국 문샷AI가 오픈소스 LLM Kimi-K2.6을 공개했다. SwiGLU 활성화 함수, 384개 전문가 MoE 구조(프롬프트당 8개 활성), 멀티헤드 레이턴트 어텐션(MLA)을 채택해 하드웨어 효율을 극대화했다. 4억 파라미터 비전 인코더로 멀티모달 입력을 처리하고 최대 300개 에이전트 병렬 실행을 지원한다.
Deezer, "하루 업로드되는 신곡의 44%가 AI 생성" — 1년 만에 7.5배 폭증
음악 스트리밍 서비스 Deezer가 플랫폼에 매일 업로드되는 신곡의 44%가 AI로 생성된 트랙이라고 공개했다. 하루 75,000곡 수준으로 1년 만에 7.5배 증가했지만, 실제 재생 비중은 1-3%에 불과하고 그중 85%는 부정 스트리밍으로 판정돼 수익에서 제외된다. 설문에서는 응답자의 97%가 AI 곡과 사람 곡을 구분하지 못했다.
댓글
댓글
댓글을 불러오는 중...