초당 토큰 수, 숫자로만 보면 감이 안 오는 이유

ai-ml 2026-05-18 약 5분

 tags

#llm #benchmark #tokenization #latency

vote

북마크

로컬 대규모 언어 모델 벤치마크에서 흔히 보는 초당 토큰 수가 실제 체감 속도로는 어떻게 느껴지는지 보여주는 실험성 도구를 소개한 글이다. 같은 30토큰/초라도 코드, 일반 텍스트, 추론 문장, 에이전트식 도구 호출 흐름에서는 체감이 꽤 다르다는 게 핵심이다.

1
초당 토큰 수는 벤치마크 숫자로는 명확하지만 사람이 읽는 체감 속도와 바로 연결되지는 않음
2
코드는 일반 문장보다 토큰 밀도가 높아서 같은 속도라도 훨씬 다르게 느껴짐
3
영어 산문 기준 30토큰/초는 대략 초당 23단어 수준임

로컬 대규모 언어 모델(LLM) 벤치마크에서 자주 보이는 47 tok/s, 180 tok/s, 500 tok/s 같은 숫자를 실제 눈으로 체감하게 해주는 렌더링 도구가 나옴
- 그냥 숫자만 보면 “빠르네” 정도로 끝나는데, 실제로 토큰이 흘러나오는 걸 보면 속도의 의미가 훨씬 선명해짐
- 특히 코드 생성, 일반 답변, 추론 출력, 에이전트 작업처럼 출력 형태가 바뀌면 같은 속도도 다르게 느껴짐
도구는 4가지 모드로 토큰 스트리밍을 보여줌
- code는 문법 강조가 들어간 의사 코드 출력이라, 개발자가 LLM에서 가장 자주 보는 화면에 가까움
- text는 일반 산문 응답이고, 채팅 답변이나 설명형 응답을 떠올리면 됨
- think는 흐릿한 이탤릭 추론 문장과 코드가 번갈아 나오는 형태라, 추론 모델이 생각을 풀어놓는 느낌을 흉내 냄
- agent는 도구 호출, 코드 생성, 중간 처리 대기 시간이 섞인 형태라 AI 코딩 에이전트 UX에 더 가까움

❗중요

> 같은 30토큰/초라도 일반 문장과 코드는 체감 속도가 다름. 코드가 토큰을 더 많이 먹기 때문에 벤치마크 숫자만 보면 UX를 잘못 판단하기 쉬움.

글에서 추천하는 체감 구간도 꽤 현실적임
- 기본값 30토큰/초에서 먼저 읽어보고, 5토큰/초는 라즈베리 파이급 로컬 모델 느낌으로 보면 됨
- 60토큰/초는 일반적인 호스팅 Claude나 GPT 응답에 가까운 구간으로 제시됨
- 200토큰/초는 Groq 쪽 속도감, 800토큰/초는 Cerebras급으로 사실상 사람 눈이 병목이 되는 구간임
핵심은 “토큰”이 사람이 생각하는 단어와 1:1로 맞지 않는다는 점임
- 이 도구는 특정 벤더의 토크나이저가 아니라 BPE 스타일 토큰화를 대략 흉내 냄
- 짧은 단어는 보통 토큰 하나지만, processUserInput 같은 긴 식별자는 process, User, Input처럼 여러 조각으로 쪼개질 수 있음
- 문장부호, 연산자도 토큰으로 잡히는 경우가 많아서 코드 출력은 산문보다 훨씬 토큰 밀도가 높음
영어 산문 기준으로는 평균 약 1.3토큰이 단어 1개에 해당함
- 그래서 30토큰/초는 대략 23단어/초 정도로 볼 수 있음
- 이 정도면 읽는 사람 입장에서는 이미 꽤 빠른 편이라, 더 높은 처리량이 항상 더 좋은 UX로 이어지지는 않음

기술 맥락

LLM 서비스에서 tok/s를 보는 이유는 응답이 얼마나 빨리 “흘러나오는지”를 가장 단순하게 보여주기 때문이에요. 서버 처리량이나 모델 비교에는 유용한데, 사용자가 실제로 읽는 속도와는 별개의 문제라서 UX 판단에는 한계가 있어요.
코드 생성이 특히 애매한 이유는 토큰 밀도가 높기 때문이에요. 함수명, 괄호, 연산자, 들여쓰기 주변 문자가 모두 토큰을 잡아먹을 수 있어서, 산문에서는 빠르게 느껴지는 속도가 코드에서는 답답하게 보일 수 있어요.
에이전트형 코딩 도구에서는 순수 생성 속도만으로 체감 성능을 설명하기 더 어려워요. 도구 호출, 파일 탐색, 실행 대기, 다시 코드 생성하는 흐름이 섞이기 때문에 사용자는 tok/s보다 “작업이 멈춘 것처럼 보이는 시간”에 더 민감하게 반응하거든요.
그래서 모델 벤치마크를 볼 때는 숫자 하나만 보지 말고 출력 타입을 같이 봐야 해요. 채팅 답변용인지, 코드 생성용인지, 에이전트 워크플로우용인지에 따라 같은 처리량도 제품 경험에서는 완전히 다르게 읽혀요.

LLM 성능 얘기할 때 초당 토큰 수만 던지면 반쪽짜리 정보가 되기 쉽다. 실제 제품에서는 모델 속도보다 사용자가 읽고 이해하는 리듬, 코드의 토큰 밀도, 에이전트 대기 시간이 UX를 더 크게 좌우할 때가 많다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-13

애플 새 음성 인식 API, 온디바이스 영어 전사에서 위스퍼 스몰까지 이겼다

애플의 새 음성 인식 API인 스피치애널라이저가 리브리스피치 벤치마크에서 기존 SFSpeechRecognizer는 물론 위스퍼 스몰보다도 낮은 단어 오류율을 기록했어. 깨끗한 음성에서는 2.12%, noisy 음성에서는 4.56%로, 기존 애플 API 대비 오류율을 3.5~4배 줄였고 위스퍼 스몰보다 약 3배 빠르게 돌았어. 다만 영어·애플 플랫폼·OS 26 조건의 결과라, 다국어와 크로스플랫폼에서는 여전히 위스퍼의 장점이 남아 있어.

ai-ml 2026-07-13

AI를 진짜 잘 쓰는 기업, 미국 증시에서 연 30% 프리미엄 받는다는 연구

예일대와 로체스터대 연구진이 기업의 실제 대형 언어 모델 사용 데이터를 분석했더니, AI 활용도가 높은 상위 20% 기업이 하위 20%보다 주당 평균 0.64% 높은 초과수익률을 냈다. 단순히 AI 기업이냐가 아니라, 업무에 AI를 얼마나 깊게 쓰는지가 시장 가치에 반영되고 있다는 얘기다.

ai-ml 2026-07-13

ZTE, AI 에이전트폰으로 스마트폰 재도전…진짜 승부처는 앱 생태계

ZTE가 바이트댄스의 더우바오를 탑재한 AI 에이전트 스마트폰으로 시장 재진입을 노린다. 핵심은 사용자가 명령하면 AI가 여러 앱을 직접 열고 조작하는 방식인데, 위챗·타오바오·알리페이 같은 플랫폼과 충돌하면서 생태계 문제가 가장 큰 변수로 떠올랐다.

ai-ml 2026-07-13

노벨상 학자들까지 “AI 경제 충격, 지금 제도 안 만들면 늦다”

노벨 경제학상 수상자 15명을 포함한 학자와 기술 업계 인사 약 200명이 AI가 향후 10년 안에 경제를 급격히 바꿀 수 있다며 정책 대응을 촉구했다. 이들은 산업혁명보다 큰 변화가 훨씬 짧은 시간에 올 수 있고, 대규모 일자리 대체와 생활 수준 향상이라는 양면성이 동시에 존재한다고 봤다.

ai-ml 2026-07-13

NHN, AI 데이터센터 매출 기대감에 목표주가 5만6000원으로 상향

한국투자증권이 NHN의 목표주가를 4만5000원에서 5만6000원으로 올리고 투자의견 매수를 유지했다. 핵심 근거는 양평 AI 데이터센터 가동, 공공·민간 GPU 클러스터 수주 확대, 클라우드 사업부 신규 매출 반영이다.

초당 토큰 수, 숫자로만 보면 감이 안 오는 이유

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

초당 토큰 수, 숫자로만 보면 감이 안 오는 이유

요약

핵심 포인트

핵심 개념

분석

기술 맥락

인사이트

댓글

댓글

관련 기사