본문으로 건너뛰기
피드

초당 토큰 수, 숫자로만 보면 감이 안 오는 이유

ai-ml 약 5분
vote
0
댓글
북마크

로컬 대규모 언어 모델 벤치마크에서 흔히 보는 초당 토큰 수가 실제 체감 속도로는 어떻게 느껴지는지 보여주는 실험성 도구를 소개한 글이다. 같은 30토큰/초라도 코드, 일반 텍스트, 추론 문장, 에이전트식 도구 호출 흐름에서는 체감이 꽤 다르다는 게 핵심이다.

  • 1

    초당 토큰 수는 벤치마크 숫자로는 명확하지만 사람이 읽는 체감 속도와 바로 연결되지는 않음

  • 2

    코드는 일반 문장보다 토큰 밀도가 높아서 같은 속도라도 훨씬 다르게 느껴짐

  • 3

    영어 산문 기준 30토큰/초는 대략 초당 23단어 수준임

  • 로컬 대규모 언어 모델(LLM) 벤치마크에서 자주 보이는 47 tok/s, 180 tok/s, 500 tok/s 같은 숫자를 실제 눈으로 체감하게 해주는 렌더링 도구가 나옴

    • 그냥 숫자만 보면 “빠르네” 정도로 끝나는데, 실제로 토큰이 흘러나오는 걸 보면 속도의 의미가 훨씬 선명해짐
    • 특히 코드 생성, 일반 답변, 추론 출력, 에이전트 작업처럼 출력 형태가 바뀌면 같은 속도도 다르게 느껴짐
  • 도구는 4가지 모드로 토큰 스트리밍을 보여줌

    • code는 문법 강조가 들어간 의사 코드 출력이라, 개발자가 LLM에서 가장 자주 보는 화면에 가까움
    • text는 일반 산문 응답이고, 채팅 답변이나 설명형 응답을 떠올리면 됨
    • think는 흐릿한 이탤릭 추론 문장과 코드가 번갈아 나오는 형태라, 추론 모델이 생각을 풀어놓는 느낌을 흉내 냄
    • agent는 도구 호출, 코드 생성, 중간 처리 대기 시간이 섞인 형태라 AI 코딩 에이전트 UX에 더 가까움

중요

> 같은 30토큰/초라도 일반 문장과 코드는 체감 속도가 다름. 코드가 토큰을 더 많이 먹기 때문에 벤치마크 숫자만 보면 UX를 잘못 판단하기 쉬움.

  • 글에서 추천하는 체감 구간도 꽤 현실적임

    • 기본값 30토큰/초에서 먼저 읽어보고, 5토큰/초는 라즈베리 파이급 로컬 모델 느낌으로 보면 됨
    • 60토큰/초는 일반적인 호스팅 Claude나 GPT 응답에 가까운 구간으로 제시됨
    • 200토큰/초는 Groq 쪽 속도감, 800토큰/초는 Cerebras급으로 사실상 사람 눈이 병목이 되는 구간임
  • 핵심은 “토큰”이 사람이 생각하는 단어와 1:1로 맞지 않는다는 점임

    • 이 도구는 특정 벤더의 토크나이저가 아니라 BPE 스타일 토큰화를 대략 흉내 냄
    • 짧은 단어는 보통 토큰 하나지만, processUserInput 같은 긴 식별자는 process, User, Input처럼 여러 조각으로 쪼개질 수 있음
    • 문장부호, 연산자도 토큰으로 잡히는 경우가 많아서 코드 출력은 산문보다 훨씬 토큰 밀도가 높음
  • 영어 산문 기준으로는 평균 약 1.3토큰이 단어 1개에 해당함

    • 그래서 30토큰/초는 대략 23단어/초 정도로 볼 수 있음
    • 이 정도면 읽는 사람 입장에서는 이미 꽤 빠른 편이라, 더 높은 처리량이 항상 더 좋은 UX로 이어지지는 않음

기술 맥락

  • LLM 서비스에서 tok/s를 보는 이유는 응답이 얼마나 빨리 “흘러나오는지”를 가장 단순하게 보여주기 때문이에요. 서버 처리량이나 모델 비교에는 유용한데, 사용자가 실제로 읽는 속도와는 별개의 문제라서 UX 판단에는 한계가 있어요.

  • 코드 생성이 특히 애매한 이유는 토큰 밀도가 높기 때문이에요. 함수명, 괄호, 연산자, 들여쓰기 주변 문자가 모두 토큰을 잡아먹을 수 있어서, 산문에서는 빠르게 느껴지는 속도가 코드에서는 답답하게 보일 수 있어요.

  • 에이전트형 코딩 도구에서는 순수 생성 속도만으로 체감 성능을 설명하기 더 어려워요. 도구 호출, 파일 탐색, 실행 대기, 다시 코드 생성하는 흐름이 섞이기 때문에 사용자는 tok/s보다 “작업이 멈춘 것처럼 보이는 시간”에 더 민감하게 반응하거든요.

  • 그래서 모델 벤치마크를 볼 때는 숫자 하나만 보지 말고 출력 타입을 같이 봐야 해요. 채팅 답변용인지, 코드 생성용인지, 에이전트 워크플로우용인지에 따라 같은 처리량도 제품 경험에서는 완전히 다르게 읽혀요.

LLM 성능 얘기할 때 초당 토큰 수만 던지면 반쪽짜리 정보가 되기 쉽다. 실제 제품에서는 모델 속도보다 사용자가 읽고 이해하는 리듬, 코드의 토큰 밀도, 에이전트 대기 시간이 UX를 더 크게 좌우할 때가 많다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

유튜브, AI 생성 영상에 자동 라벨 붙인다

유튜브가 사실적으로 보이거나 의미 있게 AI로 변경·생성된 콘텐츠에 더 눈에 띄는 라벨을 적용하고, 제작자가 AI 사용 여부를 밝히지 않아도 내부 신호로 감지되면 자동 라벨을 붙이겠다고 밝혔다. 다만 라벨만으로 추천 노출이나 수익화 자격이 바뀌지는 않으며, 제작자는 YouTube Studio에서 잘못된 판정을 수정할 수 있다.

ai-ml

테크 CEO들의 'AI 만능론', 숫자는 아직 그렇게 말하지 않는다

테크 업계에서 AI를 이유로 한 대규모 감원과 조직 재편이 이어지는 가운데, Box 창업자 애런 레비는 CEO들이 실제 업무의 마지막 1마일을 모른 채 AI 에이전트의 능력을 과대평가하고 있다고 지적했다. 2026년 첫 5개월 동안 이미 11만5430명이 해고됐고, 여러 연구는 AI 도입이 체감 생산성만큼 실제 생산성을 끌어올렸다는 근거가 아직 약하다고 말한다.

ai-ml

오픈AI와 앤트로픽, 코딩 에이전트로 드디어 돈 되는 시장을 찾은 듯

사이먼 윌리슨은 오픈AI와 앤트로픽이 코딩 에이전트와 기업용 과금으로 진짜 제품-시장 적합성을 찾았다고 봐. 개인 구독자에게는 월 100달러 플랜이 싸게 느껴지지만, 기업 고객은 이제 사용량 기준 토큰 가격을 그대로 내기 시작했고 이게 대형 고객 예산을 빠르게 흔들고 있다는 얘기야.

ai-ml

컴팔과 GMI 클라우드, 대규모 추론용 AI 인프라 구축 협력

컴팔이 실리콘밸리 기반 AI 인프라 기업 GMI 클라우드와 협력해 대규모 추론과 에이전틱 AI 워크로드에 맞춘 GPU 서버 인프라를 구축한다고 발표했어. COMPUTEX 2026에서는 NVIDIA HGX B300을 지원하는 Compal SGX30-2 같은 고성능 AI 서버 플랫폼도 선보일 예정이야.

ai-ml

AI 쓰면 편해진다더니, 직장인들은 ‘AI 과부하’에 지쳐가는 중

국내 직장인들이 AI 전환 압박, AI 답변 검증 부담, 대체 불안 때문에 피로감을 호소하고 있어. 중앙일보 설문에서는 5284명 중 31.6%가 ‘AI 답변 검증에 시간이 더 걸릴 때’를 가장 지치는 순간으로 꼽았고, 기업들은 무작정 AI 사용량을 밀어붙이는 방식에서 업무 방식 재설계로 넘어가야 한다는 지적이 나와.