씨샵으로 로컬 대규모 언어 모델을 돌리는 추론 엔진, 텐서샤프 공개

ai-ml 2026-06-04 약 9분

 tags

#llm #csharp #gguf #cuda #inference

vote

북마크

텐서샤프는 GGUF 모델 파일을 로컬에서 실행하는 씨샵 기반 대규모 언어 모델 추론 엔진이다. 콘솔, 웹 챗봇, 올라마 호환 API, 오픈에이아이 호환 API를 제공하고, 젬마 4·큐웬 3 계열·지피티 오에스에스·네모트론-H·미스트랄 3 같은 모델을 지원한다.

1
씨샵 기반 로컬 대규모 언어 모델 추론 엔진으로 GGUF 파일을 직접 실행함
2
순수 씨샵 CPU, GGML CPU·Metal·CUDA, 직접 CUDA, MLX Metal 백엔드를 지원함
3
vLLM 스타일의 페이지드 KV 캐시와 연속 배칭을 기본 활성화해 동시 요청 처리와 prefix 재사용을 노림
4
올라마 호환 API와 오픈에이아이 Chat Completions 호환 API를 제공해 기존 도구와 붙이기 쉬움

씨샵으로 만든 로컬 대규모 언어 모델 추론 엔진

텐서샤프는 GGUF 모델 파일을 로컬에서 실행하는 씨샵 기반 추론 엔진임
- 콘솔 앱, 웹 챗봇 UI, 올라마 호환 API, 오픈에이아이 Chat Completions 호환 API를 같이 제공함
- 닷넷 환경에서 로컬 대규모 언어 모델(LLM)을 직접 띄우고 기존 도구와 붙이는 걸 목표로 잡은 프로젝트임
지원 범위가 꽤 넓음
- 모델 계열은 젬마 3·4, 큐웬 3, 큐웬 3.5·3.6 계열, 지피티 오에스에스, 네모트론-H, 미스트랄 3를 언급함
- 멀티모달은 젬마 4에서 이미지·비디오·오디오를 지원하고, 젬마 3·큐웬 3.5 계열·미스트랄 3·네모트론-H 옴니에서는 이미지 입력을 지원한다고 설명함
- 추론 모드는 일부 모델에서 생각하기·추론 출력과 도구 호출까지 다룸
실행 백엔드도 하나로 고정하지 않음
- 순수 씨샵 CPU, 직접 CUDA/cuBLAS, MLX Metal, GGML CPU, GGML Metal, GGML CUDA를 선택할 수 있음
- 맥에서는 Metal과 MLX, 윈도우·리눅스에서는 NVIDIA CUDA 쪽을 노리는 구조임
- 지원되지 않는 연산은 CPU fallback으로 돌리는 식이라, 백엔드별 완성도 차이를 흡수하려는 설계가 보임

❗중요

> 내부 기준 벤치마크에서 큐웬 3.6 35B A3B 양자화 모델의 피크 메모리를 약 17GB에서 8GB로 줄이고, 디코드 처리량을 약 3.8토큰/초에서 10.8토큰/초로 올렸다고 주장함.

서버 추론에서 신경 쓴 부분

서버 쪽 핵심은 vLLM 스타일의 페이지드 KV 캐시와 연속 배칭임
- KV 캐시를 고정 크기 블록으로 나누고, 블록 해시를 이용해 요청 간 prefix를 공유함
- 스케줄러는 iteration 단위로 요청을 받아들이거나 선점하면서 여러 시퀀스를 한 번의 forward에 묶으려 함
- 기본값은 연속 배칭 활성화이고, --no-continuous-batching으로 끌 수 있음
관측성도 꽤 노골적으로 넣어놨음
- 웹 UI, 올라마 응답, 오픈에이아이 응답 모두에서 KV 캐시 재사용 토큰 수와 비율을 노출함
- 서버 로그에는 사용자 입력, 전체 메시지 배열, 원시 어시스턴트 출력, 첫 토큰 시간, 처리량, 종료 이유까지 남김
- 운영 환경에서는 민감한 프롬프트가 로그에 남을 수 있으니 로그 레벨 조정이 필요해 보임
API 호환성을 전면에 세운 것도 실용적임
- 올라마 스타일 /api/generate, /api/chat/ollama 엔드포인트를 제공함
- 오픈에이아이 호환 /v1/chat/completions도 제공하고, 구조화 출력 형식까지 파싱함
- 기존 로컬 LLM 도구를 완전히 새로 짜지 않고 바꿔 꽂는 사용성을 노린 듯함

성능 최적화 포인트

양자화 가중치를 풀어서 FP32로 만들지 않고 직접 계산하는 경로를 강조함
- Q4_K_M, Q8_0, F16, MXFP4 같은 GGUF 양자화 포맷을 읽고 native quantized matmul을 수행한다고 설명함
- 메모리와 대역폭을 아끼는 게 핵심이고, 큰 모델을 로컬에서 돌릴 때 체감 차이가 큰 영역임
맥 쪽에서는 zero-copy 파일 매핑이 큰 포인트로 나옴
- GGUF 파일을 메모리 매핑하고 Metal 명령 버퍼에 host pointer로 연결해, 모델 파일을 별도 native heap에 복사하던 비용을 줄였다고 함
- 예시로 약 10GB짜리 큐웬 3.5 35B A3B 모델이 Metal에서 피크 약 7GB 작업 메모리로 돈다고 설명함
모델별 fused kernel도 많이 들어가 있음
- 젬마 4는 디코드에서 모든 transformer layer를 하나의 GGML compute graph dispatch로 실행해 토큰당 CPU-GPU 왕복을 줄였다고 함
- 큐웬 3.5·3.6 계열은 attention, output projection, FFN, MoE router, vision encoder 쪽 fused path를 따로 설명함
- 네모트론-H는 Mamba2 SSM layer와 MoE FFN layer를 다루고, batched Mamba2 native kernel까지 언급함

💡팁

> 로컬 추론 서버로 검토한다면 먼저 백엔드별 완성도를 확인하는 게 좋음. 같은 모델이라도 GGML Metal, MLX, CUDA, 순수 CPU 경로의 지원 연산과 fallback 비율이 다를 수 있음.

개발자가 바로 볼 만한 사용성

패키지 구조는 꽤 명확하게 나뉘어 있음
- TensorSharp.Core는 텐서와 연산, 메모리, 디바이스 추상화를 담당함
- TensorSharp.Runtime은 GGUF 파싱, 토크나이저, 프롬프트 렌더링, 샘플링, KV 캐시, 스케줄러를 맡음
- TensorSharp.Models는 젬마·큐웬·미스트랄·네모트론 같은 모델 구현을 담음
- TensorSharp.Server와 TensorSharp.Cli는 각각 HTTP 서버와 콘솔 도구 레이어임
빌드와 실행은 닷넷 프로젝트답게 구성돼 있음
- 전체 솔루션은 dotnet build TensorSharp.slnx로 빌드함
- 서버는 TensorSharp.Server --model ./models/model.gguf --backend ggml_metal 같은 식으로 단일 GGUF를 명시적으로 띄움
- 콘솔에서는 단발성 추론, 대화형 REPL, 이미지·비디오·오디오 입력, JSONL 배치, 벤치마크를 지원함
테스트 범위도 단순 샘플 수준은 아님
- xUnit 테스트에는 양자화 연산, CUDA·MLX 백엔드, 페이지드 KV 캐시, 연속 배칭 스케줄러, 모델별 batched forward 정합성, 서버 요청 처리 등이 포함돼 있음
- 서버 통합 테스트는 웹 UI SSE, 올라마, 오픈에이아이 API, 멀티턴 대화, 도구 호출, 구조화 출력, 동시 요청, 중단 처리를 다룸

기술 맥락

텐서샤프의 큰 기술적 선택은 “닷넷 안에서 로컬 LLM 추론 스택을 끝까지 가져간다”는 거예요. 단순 래퍼가 아니라 GGUF 파싱, 샘플링, 모델 구현, 서버 API, 스케줄링까지 직접 들고 가려는 구조라서 닷넷 서비스와 붙일 때 언어 경계가 줄어들어요.
GGUF를 고른 이유는 로컬 추론 생태계에서 이미 모델 배포 단위로 널리 쓰이기 때문이에요. 허깅페이스에 올라온 양자화 모델을 바로 가져와 실행할 수 있어야 사용자 진입 장벽이 낮아지거든요.
페이지드 KV 캐시와 연속 배칭이 중요한 이유는 서버형 추론에서 단일 요청 속도보다 동시 요청 처리 효율이 더 큰 병목이 되기 때문이에요. 여러 사용자의 대화 prefix를 블록 단위로 재사용하면 메모리와 prefill 비용을 같이 줄일 수 있어요.
백엔드를 여러 개 둔 건 현실적인 선택이에요. 개발자 장비가 맥북일 수도 있고, 운영 장비가 NVIDIA 서버일 수도 있고, 네이티브 의존성을 피해야 할 수도 있으니까요. 대신 이 구조에서는 각 백엔드의 fallback 비율과 fused kernel 완성도가 실제 성능을 좌우해요.
메모리 최적화 사례가 특히 의미 있는 건 24GB급 애플 실리콘 같은 로컬 머신에서 30B급 모델 실행 가능성을 바꾸기 때문이에요. 모델 파일을 중복 복사하지 않는 것만으로도 메모리 압박이 줄고, 그 결과 디코드 처리량까지 같이 올라갈 수 있어요.

로컬 추론 생태계가 파이썬·씨플러스플러스 중심으로 굳어지는 와중에 씨샵 진영에서 꽤 공격적인 엔진이 나온 셈임. 특히 GGUF, 멀티모달, 연속 배칭, Metal·CUDA·MLX까지 한 번에 잡으려는 범위가 넓어서 실제 성능 검증만 된다면 닷넷 서버 환경에서 꽤 흥미로운 선택지가 될 수 있음.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

씨샵으로 로컬 대규모 언어 모델을 돌리는 추론 엔진, 텐서샤프 공개

요약

핵심 포인트

핵심 개념

분석

씨샵으로 만든 로컬 대규모 언어 모델 추론 엔진

서버 추론에서 신경 쓴 부분

성능 최적화 포인트

개발자가 바로 볼 만한 사용성

기술 맥락

인사이트

댓글

댓글

씨샵으로 로컬 대규모 언어 모델을 돌리는 추론 엔진, 텐서샤프 공개

요약

핵심 포인트

핵심 개념

분석

씨샵으로 만든 로컬 대규모 언어 모델 추론 엔진

서버 추론에서 신경 쓴 부분

성능 최적화 포인트

개발자가 바로 볼 만한 사용성

기술 맥락

인사이트

댓글

댓글

관련 기사