본문으로 건너뛰기
피드

BC카드, 금융 특화 임베딩 모델 공개…한국어 금융 검색 성능 최대 15% 끌어올림

ai-ml 약 4분
vote
0
댓글
북마크

BC카드가 한국어 금융 데이터 182만건으로 학습한 금융 특화 임베딩 모델을 공개했다. 경량형은 6억 파라미터로 일반 중앙처리장치에서 돌릴 수 있고, 고품질형은 40억 파라미터로 정밀 검색 업무를 겨냥한다.

  • 1

    한국어 금융 전문 용어 검색 성능이 기존 대비 최대 15% 향상됨

  • 2

    6억 파라미터 경량형 모델은 일반 중앙처리장치 환경에서 사용 가능함

  • 3

    40억 파라미터 고품질형 모델은 그래픽처리장치 환경에서 경량형보다 약 10% 높은 성능을 냄

  • 4

    허깅페이스 공개와 케이티 그룹사 적용, 정부·금융기관 대상 검색 플랫폼 사업 확대를 계획 중임

  • BC카드가 금융 특화 생성형 인공지능 서비스용 임베딩 모델을 자체 개발해서 공개함

    • 핵심은 챗봇 그 자체가 아니라, 챗봇이 답하기 전에 관련 문서를 얼마나 정확히 찾아오느냐임
    • 금융권에서는 상담, 사내 업무지원, 문서 검색에 생성형 인공지능을 붙이는 흐름이 커지고 있어서 검색 품질이 바로 서비스 품질로 이어짐
  • 이번 모델은 한국어 금융 데이터 182만건을 학습한 게 포인트임

    • 범용 임베딩 모델은 ‘가맹점’, ‘카드 결제’ 같은 국내 금융권 표현과 문맥을 충분히 이해하지 못하는 문제가 있었음
    • BC카드는 이 한계를 줄이려고 예전에 오픈소스 플랫폼에 공개했던 금융 데이터셋을 활용함
    • 그 결과 한국어 금융 전문 용어 검색 성능이 기존 대비 최대 15% 좋아졌다고 밝힘
  • 모델 라인업은 경량형과 고품질형 두 가지로 나뉨

    • 경량형은 약 6억 파라미터 규모고, 일반 중앙처리장치 환경에서도 사용할 수 있음
    • 이 경량형 모델은 글로벌 벤치마크 평가 항목에서 전 세계 1위를 기록했다고 함
    • 고품질형은 약 40억 파라미터 규모로 그래픽처리장치 환경을 전제로 하며, 경량형보다 약 10% 높은 성능을 낸다고 설명함

중요

> 숫자로 보면 꽤 선명함. 182만건 금융 데이터셋, 6억 파라미터 경량형, 40억 파라미터 고품질형, 검색 성능 최대 15% 향상이 이번 발표의 핵심 수치임.

  • 금융사 입장에서 자체 임베딩 모델은 보안 이슈와도 바로 연결됨

    • 외부 인공지능 서비스에 금융 데이터를 넘기지 않고도 내부 검색 기반 인공지능 서비스를 운영할 수 있기 때문임
    • 특히 금융 데이터는 고객 정보, 거래 맥락, 내부 문서가 얽혀 있어서 외부 의존도를 낮추는 게 꽤 큰 전략적 의미를 가짐
  • BC카드는 이 모델을 허깅페이스에도 공개할 예정임

    • 먼저 케이티 그룹사 인공지능 서비스 적용을 시작으로 활용 범위를 넓힐 계획임
    • 이후 정부와 금융기관 대상으로 금융 인공지능 검색 플랫폼 사업까지 확대하겠다는 그림을 제시함
    • 정부의 소버린 인공지능 기조와 금융권 디지털 전환 정책에 맞춘 발표라는 메시지도 같이 깔려 있음

기술 맥락

  • 이번 선택의 핵심은 범용 임베딩 모델을 그대로 쓰지 않고 금융 도메인에 맞춘 모델을 따로 만들었다는 점이에요. 금융권 검색은 일반 문서 검색보다 용어 의존도가 높아서, 같은 단어라도 업무 맥락을 모르면 엉뚱한 문서를 가져오기 쉽거든요.

  • 경량형과 고품질형을 나눈 것도 현실적인 선택이에요. 모든 업무가 최고 성능을 요구하는 건 아니라서, 일반 중앙처리장치에서 돌릴 수 있는 6억 파라미터 모델은 비용과 배포 편의성이 좋고, 40억 파라미터 모델은 정밀 검색이 필요한 업무에 쓰기 좋아요.

  • 금융사 입장에서는 검색 모델을 자체 보유하는 이유가 성능만은 아니에요. 내부 문서와 금융 데이터를 외부 서비스에 넘기지 않아도 된다는 점이 크고, 이건 보안 심사나 규제 대응에서도 꽤 중요한 차이를 만들어요.

  • 허깅페이스 공개 계획은 생태계 전략에 가까워요. 모델을 열어두면 외부 검증과 활용 사례가 쌓이고, 금융권 전반에서 한국어 금융 데이터에 맞춘 검색 기반 생성형 인공지능을 만들기 쉬워지거든요.

금융권 생성형 인공지능의 병목은 모델 자체보다 내부 문서를 얼마나 정확히 찾아오느냐인 경우가 많다. BC카드가 임베딩 모델을 자체 확보했다는 건 성능보다도 데이터 외부 반출 리스크를 줄이는 쪽에서 의미가 큼.

댓글

댓글

댓글을 불러오는 중...

ai-ml

메타의 남는 AI 인프라 판매설, 진짜 리스크는 미국 데이터센터 경제성이라는 지적

메타가 남는 AI 인프라를 클라우드처럼 외부에 빌려줄 수 있다는 관측에 시장이 반응했지만, 테크 전문가 마크 더글라스는 회의적인 시각을 냈다. 그는 미국 내 하이퍼스케일 데이터센터의 비용과 지역 반대가 커지는 사이, 걸프 지역의 저렴한 전력 기반 데이터센터가 강력한 경쟁자가 될 수 있다고 봤다. 다만 메타의 장기 AI 전략, 특히 라마와 광고 모델 개선 가능성에는 긍정적이었다.

ai-ml

클라우드플레어, 구글봇에 칼 뺐다…검색 크롤러랑 AI 학습 봇 분리하라는 압박

클라우드플레어가 9월 15일부터 광고가 붙은 페이지에서 검색과 AI 학습을 동시에 수행하는 혼합형 크롤러를 기본 차단하겠다고 밝혔다. 핵심 타깃은 검색 색인, AI 오버뷰, AI 모드에 구글봇 하나를 쓰는 구글식 구조다. 웹사이트 운영자가 검색 노출을 포기하지 않고도 AI 학습 수집은 거부할 수 있게 하겠다는 흐름이라, 웹 콘텐츠 생태계의 돈 흐름과 직결된다.

ai-ml

메타, 남는 AI 인프라로 클라우드 사업까지 노린다

메타가 AI 모델 훈련과 운영을 위해 구축한 데이터센터 인프라를 외부에 빌려주는 클라우드 사업을 준비 중인 것으로 알려졌다. AI 모델 접근권 판매나 데이터센터 컴퓨팅 임대가 거론되며, 실제로 시작되면 아마존, 구글, 스페이스X와 직접 경쟁하게 된다.

ai-ml

산업단지공단·네이버클라우드, 제조 현장 인공지능 전환 협력

한국산업단지공단이 네이버클라우드와 업무협약을 맺고 공공업무와 산업단지 제조기업의 인공지능 전환을 함께 추진한다. 하이퍼클로바엑스 기반 임직원 시범서비스, 스마트 케이-팩토리 연계, 입주기업 지원 프로그램이 주요 내용이다.

ai-ml

기업 60%가 인공지능 지출에 제동…오픈소스 모델엔 기회가 열림

유비에스 애널리스트들이 기업 정보기술 임원들과 대화한 결과, 약 60%가 인공지능 지출을 어떤 형태로든 제한하고 있는 것으로 나타났다. 토큰 비용 부담이 커지면서 오픈에이아이, 앤트로픽 같은 상용 모델 업체에는 압박이 되고, 딥시크 같은 오픈소스 모델에는 기회가 될 수 있다는 분석이다.