BC카드가 GPU 더 안 사고 vLLM·양자화·SLM 스웜으로 금융 AI를 굴린 방식

ai-ml 2026-06-10 약 9분

 tags

#llm #vllm #quantization #rag #openshift

vote

북마크

BC카드는 자체 대형 모델 개발보다 오픈소스 모델을 자사 환경에 최적화하는 전략으로 방향을 틀었다. vLLM, FP8 양자화, 스펙큘레이티브 디코딩, SLM 스웜을 조합해 추론 성능과 비용을 개선했고, 금융권 업무 자동화와 거버넌스까지 연결했다.

1
BC카드는 라마3 8B 기반 금융 LLM에서 출발했지만 빠르게 쏟아지는 글로벌 모델 때문에 오픈소스 최적화 전략으로 전환함
2
vLLM과 양자화로 모델 크기를 50% 줄이고 성능을 최대 3배 높였으며, 스펙큘레이티브 디코딩으로 처리량을 56% 개선함
3
가맹점 심사, RPA, 고객센터 자동화에서 총 10만2000시간의 업무 효율화 성과를 냄
4
GPT-4o 기반 해외 결제 가맹점명 추론을 오픈소스 모델로 바꿔 월 500만~1000만원 비용을 0원으로 낮추고 정확도 90%를 유지함

자체 모델보다 최적화가 더 중요하다는 결론

BC카드는 처음엔 독자 금융 대형 언어 모델(LLM)을 만들겠다는 쪽으로 출발함
- 2024년 5월 메타 라마3 8B 기반 ‘BC K-금융 LLM’을 공개함
- 금융 특화 데이터셋도 연구소, 국가연구기관, 금융지주사, 정부기관 등에서 모아 현재까지 380만개를 공개함
- 파인튜닝과 LLM 머지를 거쳐 최종 27B 규모의 BC GPT까지 고도화함
그런데 현실은 냉정했음. 두 달마다 더 좋은 글로벌 모델이 계속 나옴
- 내부에서 열심히 모델을 만들면 곧바로 더 강한 모델이 등장하는 패턴이 반복됨
- 그래서 BC카드는 독자 모델 경쟁보다 빅테크 오픈소스 모델을 자사 환경에 맞게 최적화하는 전략으로 방향을 틀었음
- 현재 허깅페이스에 38개 모델과 5개 데이터셋을 공개 중이고, 국내 금융권에서 오픈소스 LLM에 기여하는 기업은 BC카드가 유일하다고 밝힘

❗중요

> BC카드의 핵심 메시지는 “GPU를 더 사기 전에 소프트웨어 최적화를 먼저 보라”는 쪽임. 실제로 vLLM, FP8 양자화, 스펙큘레이티브 디코딩만으로 비용과 성능 지표가 크게 바뀜.

vLLM, 양자화, 디코딩 최적화로 GPU 한계를 밀어냄

BC카드는 추론 엔진을 올라마(Ollama)에서 vLLM으로 바꾸면서 안정성과 처리량을 끌어올림
- 기존 환경에서는 동시 처리 요청이 들어오면 서버가 죽었다고 함
- vLLM으로 바꾼 뒤에는 서버가 버텼고, 양자화까지 더하자 기존 대비 속도가 10배 차이 났다고 설명함
- vLLM은 2023년 UC버클리에서 나온 오픈소스 LLM 추론 엔진이고, 페이지드어텐션(PagedAttention)으로 GPU 메모리를 효율적으로 관리함
FP8 동적 양자화도 적용함
- 모델 크기를 50% 줄였고, 성능은 최대 3배 높였다고 밝힘
- 오차율은 0.01% 수준에 그쳤다고 함
- “품질 저하가 생각보다 적었다”는 발표자의 코멘트가 실무적으로 꽤 큼. 금융사는 정확도 손실에 민감하니까
스펙큘레이티브 디코딩까지 더해 처리량을 더 밀어 올림
- 처리량은 56% 향상됐고, 최대 6배까지 빨라지는 결과를 만들었다고 함
- 이 방식은 작은 모델이 먼저 토큰을 예측하고, 큰 모델이 이를 검증해 대형 모델의 생성 횟수를 줄이는 구조임
- 발표자는 vLLM 파라미터 하나만 바꿔도 처리량이 58% 더 빨라진다고 언급함

sequenceDiagram
    participant 사용자
    participant 소형모델
    participant 대형모델
    participant vLLM서버
    participant GPU
    사용자->>vLLM서버: 추론 요청
    vLLM서버->>소형모델: 후보 토큰 빠르게 생성
    소형모델-->>대형모델: 예측 토큰 전달
    대형모델-->>vLLM서버: 검증된 토큰 반환
    vLLM서버->>GPU: 메모리 효율적으로 배치 처리
    vLLM서버-->>사용자: 더 빠른 응답 반환

SLM 스웜으로 에이전트 AI를 현업에 붙임

BC카드의 다음 선택은 단일 대형 모델이 아니라 소형 언어 모델(SLM) 여러 개를 동시에 굴리는 스웜 구조임
- 발표자는 GPT-4.5 이후부터는 사실상 단일 모델이 아니라 에이전트 형태로 업무를 쪼개 처리하는 구조라고 설명함
- 컴퓨터 사이언스의 기본인 분할 정복(divide and conquer)이 AI에도 그대로 적용된다는 관점임
- 온프레미스 GPU가 제한된 금융사 입장에서는 대형 모델 하나보다 작은 모델 여러 개를 역할별로 나누는 쪽이 운영상 유리함
실제 업무 적용 사례도 꽤 구체적임
- 가맹점 서류 심사에서 한도 산정, 회원제 업소 여부 판별, 제출 사진 진위 확인 같은 복합 업무를 에이전트가 자동 처리함
- 기존 16명이 투입되던 심사 평가 인력을 3명 수준으로 효율화함
- RPA에 에이전트를 결합해 연간 7만 시간, 고객센터 자동화로 1만2000시간을 추가 절감함
- 총 업무 효율화 성과는 10만2000시간으로 제시됨
비용 절감 사례도 숫자가 세게 나옴
- 해외 결제 가맹점명 추론 서비스에서 GPT-4o를 오픈소스 GPT-OSS-120B로 교체함
- 월 500만~1000만원 들던 비용이 0원으로 줄었고, 정확도는 90%로 동일하게 유지됨
- 이후 젬마 4 26B SLM을 적용하자 정확도는 95%로 오히려 올라감
- 온라인 쇼핑 적립 품목 예측은 SLM 스웜 전환 후 성공률이 92%에서 98%로 올랐고, 비용은 최대 70% 줄었으며, 추론 속도는 2~3배 빨라짐

❗중요

> “오픈소스 모델로 바꾸면 성능이 떨어지는 거 아냐?”라는 질문에 BC카드는 비용 0원, 정확도 90% 유지, 이후 SLM 적용 시 95%라는 숫자로 답한 셈임.

RAG와 검색, 운영 플랫폼까지 같이 깔아야 실전이 됨

BC카드는 검색 증강 생성(RAG)도 그냥 벡터 검색 하나로 끝내지 않았음
- 가설 문서 임베딩(HyDE) 기반 병렬 검색 방식을 적용함
- 질문을 그대로 임베딩하는 대신 SLM이 여러 관점의 가설 답변을 만들고, 이를 동시에 임베딩해 벡터 검색에 활용함
- 자체 웹 크롤링 검색 엔진 ‘비플렉시아(Bplexica)’도 만들어 외부 데이터를 실시간 수집해 RAG에 붙임
운영 플랫폼은 레드햇 오픈시프트 AI를 선택함
- BC카드 AI 조직은 5명으로 개발, 연구, 운영, 최적화, 인증까지 떠안고 있었음
- 관리 부하가 한계에 오자 레드햇의 검증 모델과 런타임 이미지를 도입해 플랫폼 관리 업무를 줄였다고 설명함
- vLLM과 llm-컴프레서 같은 기술 방향이 레드햇의 뉴럴 매직 인수와도 맞아떨어졌다고 봄
금융권답게 보안과 거버넌스도 별도 축으로 잡음
- 내부 금융 데이터 처리를 위한 프라이빗 클라우드 기반 ‘AI 시큐어 존’을 별도로 구축함
- 대외 서비스를 위한 ‘AI 퍼블릭 존’과 이중 구조로 분리함
- 올해 1월 시행된 AI 기본법과 금융권 가이드라인 대응을 위해 전사 AI 거버넌스 플랫폼 ‘모아이 핀LLM(MOAI FinLLM)’도 자체 개발함
- 입력 검증, 하이브리드 탐지, 내용 검증, 출력 제어, 모니터링, 로깅 같은 가드레일 기능을 내재화함

기술 맥락

BC카드가 독자 LLM 개발에서 오픈소스 최적화로 방향을 튼 이유는 모델 경쟁의 속도 때문이에요. 내부에서 27B 모델까지 키워도 두 달마다 더 좋은 글로벌 모델이 나오면, 금융사 입장에서는 “최고 모델을 직접 만들기”보다 “좋은 모델을 우리 환경에서 싸고 안정적으로 굴리기”가 더 현실적인 선택이거든요.
vLLM과 양자화가 중요한 이유는 GPU 예산을 바로 늘리지 않고도 병목을 줄일 수 있기 때문이에요. 특히 온프레미스 환경은 클라우드처럼 자원을 쉽게 늘리기 어렵고, 금융 데이터는 외부로 빼기도 까다로워요. 그래서 모델 크기를 50% 줄이고 처리량을 올리는 최적화가 곧 인프라 전략이 돼요.
SLM 스웜은 큰 모델 하나에 모든 업무를 맡기는 대신, 작은 모델들이 역할을 나눠 병렬로 처리하게 만드는 선택이에요. 가맹점 심사처럼 한도 산정, 이미지 확인, 업종 판별이 섞인 업무는 하나의 거대한 답변보다 여러 하위 판단의 조합에 더 가깝거든요.
오픈시프트 AI를 붙인 건 운영 인력 문제와 규제 대응 때문이에요. 5명짜리 조직이 개발, 배포, 최적화, 인증, 보안을 전부 들고 가기엔 한계가 있으니, 검증된 런타임과 하이브리드 클라우드 제어를 플랫폼으로 가져온 거예요.
이 사례의 포인트는 AI 모델 성능표 하나가 아니라 전체 운영 구조예요. 모델 선택, 추론 최적화, RAG, 보안 구역 분리, 감사 로그까지 이어져야 금융권에서 실제 업무 자동화로 넘어갈 수 있어요.

이 사례가 재밌는 이유는 ‘우리도 LLM 만들었다’에서 끝나지 않고, 실제 금융사 온프레미스 제약 안에서 어떻게 싸게, 빠르게, 통제 가능하게 굴릴지까지 내려갔다는 점임. 한국 기업 AI 도입에서 제일 현실적인 고민이 GPU 예산, 보안, 운영 인력인데 이 세 가지를 정면으로 다룬 사례다.

이전 기사 (P)

다음 기사 (N)

댓글을 불러오는 중...

ai-ml 2026-07-23

알파벳, 클라우드 82% 성장했지만 AI 인프라 투자로 현금흐름 첫 적자

알파벳이 2분기 매출 1198억 달러를 기록하며 시장 전망을 넘겼고, 클라우드 매출은 82% 급증한 248억 달러까지 뛰었다. 하지만 AI 인프라에 분기 449억 달러를 투입하면서 잉여현금흐름은 2004년 상장 이후 처음으로 분기 적자를 냈다.

ai-ml 2026-07-23

알파벳 클라우드 매출 82% 폭증했는데, 클라우드 ETF는 왜 빠졌나

알파벳의 2분기 클라우드 매출이 전년 대비 82% 늘며 월가 예상치를 크게 넘었지만, 클라우드 관련 ETF는 오히려 하락했다. 시장은 이제 클라우드 매출 성장률만 보는 게 아니라, 그 매출을 만들기 위해 데이터센터와 칩에 얼마나 많은 자본지출이 들어갔는지를 따지고 있다.

ai-ml 2026-07-23

젠슨 황 “중국산 오픈소스 AI, 좋으면 써야 한다”

젠슨 황 엔비디아 CEO가 미국 정부의 중국산 오픈소스 AI 모델 규제 움직임에 반대했다. 딥시크, 알리바바, 문샷 AI 같은 중국 모델이 백도어라는 우려는 오해에 가깝고, 좋은 오픈소스 모델은 기업들이 활용할 수 있어야 한다는 주장이다.

ai-ml 2026-07-23

업스테이지 ‘솔라 오픈 2’ 공개, 한국어·에이전트 성능으로 독파모 2라운드 승부

업스테이지가 오픈웨이트 LLM ‘솔라 오픈 2’를 공개했다. 2500억 매개변수 중 150억 개만 활성화하는 MoE 구조, 100만 토큰 컨텍스트, H200 2장 구동 가능성을 앞세워 한국어·에이전트·기업 도입성을 동시에 노린 모델이다.

ai-ml 2026-07-23

아이벡스, 오픈소스 로봇·비전으로 볼트 검사 투입 자동화한다

아이벡스가 정보통신산업진흥원의 오픈소스 사업화 과제에 선정돼 케이피에프의 자분탐상 검사라인 자동화에 들어간다. 벌크 상태로 쏟아지는 볼트류를 AI 비전으로 인식하고, 6D 자세 추정과 로봇 제어로 집어서 검사장비에 넣는 흐름까지 구현하는 게 핵심이다.

BC카드가 GPU 더 안 사고 vLLM·양자화·SLM 스웜으로 금융 AI를 굴린 방식

요약

핵심 포인트

핵심 개념

분석

자체 모델보다 최적화가 더 중요하다는 결론

vLLM, 양자화, 디코딩 최적화로 GPU 한계를 밀어냄

SLM 스웜으로 에이전트 AI를 현업에 붙임

RAG와 검색, 운영 플랫폼까지 같이 깔아야 실전이 됨

기술 맥락

인사이트

댓글

댓글

BC카드가 GPU 더 안 사고 vLLM·양자화·SLM 스웜으로 금융 AI를 굴린 방식

요약

핵심 포인트

핵심 개념

분석

자체 모델보다 최적화가 더 중요하다는 결론

vLLM, 양자화, 디코딩 최적화로 GPU 한계를 밀어냄

SLM 스웜으로 에이전트 AI를 현업에 붙임

RAG와 검색, 운영 플랫폼까지 같이 깔아야 실전이 됨

기술 맥락

인사이트

댓글

댓글

관련 기사