본문으로 건너뛰기
피드

BC카드가 GPU 더 안 사고 vLLM·양자화·SLM 스웜으로 금융 AI를 굴린 방식

ai-ml 약 9분
vote
0
댓글
북마크

BC카드는 자체 대형 모델 개발보다 오픈소스 모델을 자사 환경에 최적화하는 전략으로 방향을 틀었다. vLLM, FP8 양자화, 스펙큘레이티브 디코딩, SLM 스웜을 조합해 추론 성능과 비용을 개선했고, 금융권 업무 자동화와 거버넌스까지 연결했다.

  • 1

    BC카드는 라마3 8B 기반 금융 LLM에서 출발했지만 빠르게 쏟아지는 글로벌 모델 때문에 오픈소스 최적화 전략으로 전환함

  • 2

    vLLM과 양자화로 모델 크기를 50% 줄이고 성능을 최대 3배 높였으며, 스펙큘레이티브 디코딩으로 처리량을 56% 개선함

  • 3

    가맹점 심사, RPA, 고객센터 자동화에서 총 10만2000시간의 업무 효율화 성과를 냄

  • 4

    GPT-4o 기반 해외 결제 가맹점명 추론을 오픈소스 모델로 바꿔 월 500만~1000만원 비용을 0원으로 낮추고 정확도 90%를 유지함

자체 모델보다 최적화가 더 중요하다는 결론

  • BC카드는 처음엔 독자 금융 대형 언어 모델(LLM)을 만들겠다는 쪽으로 출발함

    • 2024년 5월 메타 라마3 8B 기반 ‘BC K-금융 LLM’을 공개함
    • 금융 특화 데이터셋도 연구소, 국가연구기관, 금융지주사, 정부기관 등에서 모아 현재까지 380만개를 공개함
    • 파인튜닝과 LLM 머지를 거쳐 최종 27B 규모의 BC GPT까지 고도화함
  • 그런데 현실은 냉정했음. 두 달마다 더 좋은 글로벌 모델이 계속 나옴

    • 내부에서 열심히 모델을 만들면 곧바로 더 강한 모델이 등장하는 패턴이 반복됨
    • 그래서 BC카드는 독자 모델 경쟁보다 빅테크 오픈소스 모델을 자사 환경에 맞게 최적화하는 전략으로 방향을 틀었음
    • 현재 허깅페이스에 38개 모델과 5개 데이터셋을 공개 중이고, 국내 금융권에서 오픈소스 LLM에 기여하는 기업은 BC카드가 유일하다고 밝힘

중요

> BC카드의 핵심 메시지는 “GPU를 더 사기 전에 소프트웨어 최적화를 먼저 보라”는 쪽임. 실제로 vLLM, FP8 양자화, 스펙큘레이티브 디코딩만으로 비용과 성능 지표가 크게 바뀜.

vLLM, 양자화, 디코딩 최적화로 GPU 한계를 밀어냄

  • BC카드는 추론 엔진을 올라마(Ollama)에서 vLLM으로 바꾸면서 안정성과 처리량을 끌어올림

    • 기존 환경에서는 동시 처리 요청이 들어오면 서버가 죽었다고 함
    • vLLM으로 바꾼 뒤에는 서버가 버텼고, 양자화까지 더하자 기존 대비 속도가 10배 차이 났다고 설명함
    • vLLM은 2023년 UC버클리에서 나온 오픈소스 LLM 추론 엔진이고, 페이지드어텐션(PagedAttention)으로 GPU 메모리를 효율적으로 관리함
  • FP8 동적 양자화도 적용함

    • 모델 크기를 50% 줄였고, 성능은 최대 3배 높였다고 밝힘
    • 오차율은 0.01% 수준에 그쳤다고 함
    • “품질 저하가 생각보다 적었다”는 발표자의 코멘트가 실무적으로 꽤 큼. 금융사는 정확도 손실에 민감하니까
  • 스펙큘레이티브 디코딩까지 더해 처리량을 더 밀어 올림

    • 처리량은 56% 향상됐고, 최대 6배까지 빨라지는 결과를 만들었다고 함
    • 이 방식은 작은 모델이 먼저 토큰을 예측하고, 큰 모델이 이를 검증해 대형 모델의 생성 횟수를 줄이는 구조임
    • 발표자는 vLLM 파라미터 하나만 바꿔도 처리량이 58% 더 빨라진다고 언급함
sequenceDiagram
    participant 사용자
    participant 소형모델
    participant 대형모델
    participant vLLM서버
    participant GPU
    사용자->>vLLM서버: 추론 요청
    vLLM서버->>소형모델: 후보 토큰 빠르게 생성
    소형모델-->>대형모델: 예측 토큰 전달
    대형모델-->>vLLM서버: 검증된 토큰 반환
    vLLM서버->>GPU: 메모리 효율적으로 배치 처리
    vLLM서버-->>사용자: 더 빠른 응답 반환

SLM 스웜으로 에이전트 AI를 현업에 붙임

  • BC카드의 다음 선택은 단일 대형 모델이 아니라 소형 언어 모델(SLM) 여러 개를 동시에 굴리는 스웜 구조임

    • 발표자는 GPT-4.5 이후부터는 사실상 단일 모델이 아니라 에이전트 형태로 업무를 쪼개 처리하는 구조라고 설명함
    • 컴퓨터 사이언스의 기본인 분할 정복(divide and conquer)이 AI에도 그대로 적용된다는 관점임
    • 온프레미스 GPU가 제한된 금융사 입장에서는 대형 모델 하나보다 작은 모델 여러 개를 역할별로 나누는 쪽이 운영상 유리함
  • 실제 업무 적용 사례도 꽤 구체적임

    • 가맹점 서류 심사에서 한도 산정, 회원제 업소 여부 판별, 제출 사진 진위 확인 같은 복합 업무를 에이전트가 자동 처리함
    • 기존 16명이 투입되던 심사 평가 인력을 3명 수준으로 효율화함
    • RPA에 에이전트를 결합해 연간 7만 시간, 고객센터 자동화로 1만2000시간을 추가 절감함
    • 총 업무 효율화 성과는 10만2000시간으로 제시됨
  • 비용 절감 사례도 숫자가 세게 나옴

    • 해외 결제 가맹점명 추론 서비스에서 GPT-4o를 오픈소스 GPT-OSS-120B로 교체함
    • 월 500만~1000만원 들던 비용이 0원으로 줄었고, 정확도는 90%로 동일하게 유지됨
    • 이후 젬마 4 26B SLM을 적용하자 정확도는 95%로 오히려 올라감
    • 온라인 쇼핑 적립 품목 예측은 SLM 스웜 전환 후 성공률이 92%에서 98%로 올랐고, 비용은 최대 70% 줄었으며, 추론 속도는 2~3배 빨라짐

중요

> “오픈소스 모델로 바꾸면 성능이 떨어지는 거 아냐?”라는 질문에 BC카드는 비용 0원, 정확도 90% 유지, 이후 SLM 적용 시 95%라는 숫자로 답한 셈임.

RAG와 검색, 운영 플랫폼까지 같이 깔아야 실전이 됨

  • BC카드는 검색 증강 생성(RAG)도 그냥 벡터 검색 하나로 끝내지 않았음

    • 가설 문서 임베딩(HyDE) 기반 병렬 검색 방식을 적용함
    • 질문을 그대로 임베딩하는 대신 SLM이 여러 관점의 가설 답변을 만들고, 이를 동시에 임베딩해 벡터 검색에 활용함
    • 자체 웹 크롤링 검색 엔진 ‘비플렉시아(Bplexica)’도 만들어 외부 데이터를 실시간 수집해 RAG에 붙임
  • 운영 플랫폼은 레드햇 오픈시프트 AI를 선택함

    • BC카드 AI 조직은 5명으로 개발, 연구, 운영, 최적화, 인증까지 떠안고 있었음
    • 관리 부하가 한계에 오자 레드햇의 검증 모델과 런타임 이미지를 도입해 플랫폼 관리 업무를 줄였다고 설명함
    • vLLM과 llm-컴프레서 같은 기술 방향이 레드햇의 뉴럴 매직 인수와도 맞아떨어졌다고 봄
  • 금융권답게 보안과 거버넌스도 별도 축으로 잡음

    • 내부 금융 데이터 처리를 위한 프라이빗 클라우드 기반 ‘AI 시큐어 존’을 별도로 구축함
    • 대외 서비스를 위한 ‘AI 퍼블릭 존’과 이중 구조로 분리함
    • 올해 1월 시행된 AI 기본법과 금융권 가이드라인 대응을 위해 전사 AI 거버넌스 플랫폼 ‘모아이 핀LLM(MOAI FinLLM)’도 자체 개발함
    • 입력 검증, 하이브리드 탐지, 내용 검증, 출력 제어, 모니터링, 로깅 같은 가드레일 기능을 내재화함

기술 맥락

  • BC카드가 독자 LLM 개발에서 오픈소스 최적화로 방향을 튼 이유는 모델 경쟁의 속도 때문이에요. 내부에서 27B 모델까지 키워도 두 달마다 더 좋은 글로벌 모델이 나오면, 금융사 입장에서는 “최고 모델을 직접 만들기”보다 “좋은 모델을 우리 환경에서 싸고 안정적으로 굴리기”가 더 현실적인 선택이거든요.

  • vLLM과 양자화가 중요한 이유는 GPU 예산을 바로 늘리지 않고도 병목을 줄일 수 있기 때문이에요. 특히 온프레미스 환경은 클라우드처럼 자원을 쉽게 늘리기 어렵고, 금융 데이터는 외부로 빼기도 까다로워요. 그래서 모델 크기를 50% 줄이고 처리량을 올리는 최적화가 곧 인프라 전략이 돼요.

  • SLM 스웜은 큰 모델 하나에 모든 업무를 맡기는 대신, 작은 모델들이 역할을 나눠 병렬로 처리하게 만드는 선택이에요. 가맹점 심사처럼 한도 산정, 이미지 확인, 업종 판별이 섞인 업무는 하나의 거대한 답변보다 여러 하위 판단의 조합에 더 가깝거든요.

  • 오픈시프트 AI를 붙인 건 운영 인력 문제와 규제 대응 때문이에요. 5명짜리 조직이 개발, 배포, 최적화, 인증, 보안을 전부 들고 가기엔 한계가 있으니, 검증된 런타임과 하이브리드 클라우드 제어를 플랫폼으로 가져온 거예요.

  • 이 사례의 포인트는 AI 모델 성능표 하나가 아니라 전체 운영 구조예요. 모델 선택, 추론 최적화, RAG, 보안 구역 분리, 감사 로그까지 이어져야 금융권에서 실제 업무 자동화로 넘어갈 수 있어요.

이 사례가 재밌는 이유는 ‘우리도 LLM 만들었다’에서 끝나지 않고, 실제 금융사 온프레미스 제약 안에서 어떻게 싸게, 빠르게, 통제 가능하게 굴릴지까지 내려갔다는 점임. 한국 기업 AI 도입에서 제일 현실적인 고민이 GPU 예산, 보안, 운영 인력인데 이 세 가지를 정면으로 다룬 사례다.

댓글

댓글

댓글을 불러오는 중...

ai-ml

NHN클라우드, GPU 기반 MLOps 실무 교육 과정 연다

NHN클라우드가 구디아카데미와 함께 K-디지털 트레이닝 AI 캠퍼스 사업의 일환으로 ‘AI 팩토리 GPU 가속 MLOps 스쿨’을 운영한다. 교육생은 도커, 쿠버네티스, MLOps 파이프라인, AI 모델 학습·배포 자동화, 클라우드 기반 AI 서비스 운영을 프로젝트 중심으로 배우게 된다.

ai-ml

베슬AI, 세계경제포럼이 찍은 AI GPU 클라우드 스타트업 됐다

베슬AI가 세계경제포럼의 2026년 테크놀로지 파이오니어 100개사에 선정됐다. 핵심은 네오클라우드와 베슬 클라우드로, 여러 국가 데이터센터와 협력해 AI 워크로드용 GPU 인프라를 제공한다는 점이다.

ai-ml

270억 공공의료원 AI 클라우드 HIS 사업, 이지케어텍과 휴니버스 맞대결로 간다

공공의료원 병원정보시스템을 AI 클라우드 기반으로 전환하는 270억 원 규모 정부 사업이 이지케어텍 컨소시엄과 휴니버스글로벌 컨소시엄의 경쟁 구도로 확정됐다. 국립중앙의료원과 서울의료원에서 먼저 개발·실증한 뒤 전국 35개 지방 공공의료원으로 확산하는 것이 목표다.

ai-ml

NHN클라우드, GPU 기반 MLOps 실무 인재 키운다

NHN클라우드가 구디아카데미와 함께 ‘AI 팩토리 GPU 가속 MLOps 스쿨’을 운영한다. 도커, 쿠버네티스, MLOps 파이프라인, AI 모델 학습·배포 자동화 등 실제 서비스 운영에 필요한 기술을 프로젝트 중심으로 가르치는 과정이다.

ai-ml

레드햇이 말하는 금융권 AI 전략, 모델보다 중요한 건 ‘하네스’다

한국레드햇이 금융권 AI 에이전트 운영의 핵심으로 하네스 구축과 추론 비용 최적화를 제시했다. MCP, 컨텍스트 허브, 컨테이너 샌드박스, 토큰 쿼터, vLLM, 양자화 같은 요소를 묶어 폐쇄망·규제 환경에서도 AI를 통제 가능한 운영 체계로 만들자는 얘기다.