본문으로 건너뛰기
피드

AI 때문에 클라우드 퍼스트가 흔들린다: 이제 워크로드별로 돈 계산해야 할 때

devops 약 7분
vote
0
댓글
북마크

AI 워크로드는 기존 퍼블릭 클라우드의 온디맨드 경제성을 그대로 믿기 어렵게 만들고 있어. 특히 장기간 GPU를 계속 태우는 학습 작업, 대규모 데이터 이동, 예측 안 되는 청구서가 기업 인프라 전략의 핵심 리스크로 떠올랐어. 글은 클라우드 퍼스트 대신 워크로드 이코노믹스 관점으로 퍼블릭 클라우드, 프라이빗 인프라, 특화 GPU 클라우드를 조합해야 한다고 봐.

  • 1

    AI 학습과 추론은 비용 구조가 달라서 같은 클라우드 전략으로 묶기 어렵다

  • 2

    대규모 데이터 이동 비용과 지연 시간, 데이터 중력이 퍼블릭 클라우드의 약점으로 드러난다

  • 3

    지속적인 GPU 사용은 프라이빗 인프라나 특화 GPU 클라우드가 더 예측 가능할 수 있다

  • 4

    하이브리드 인프라가 늘어날수록 전사 아키텍처 거버넌스와 비용 통제가 중요해진다

  • AI가 기업 클라우드 전략의 오래된 전제를 흔들고 있음

    • 지난 10년 넘게 기업 IT의 방향은 대체로 ‘퍼블릭 클라우드로 통합’이었음
    • AWS, 애저, 구글 클라우드 같은 하이퍼스케일러는 확장성, 유연성, 초기 비용 절감의 상징처럼 쓰였음
    • 그런데 생성형 AI 학습과 추론은 일반 웹 서비스나 데이터베이스 운영과는 자원 사용 패턴이 완전히 다름
  • 문제는 AI 워크로드가 온디맨드 클라우드의 장점을 상쇄한다는 점임

    • 일시적으로 트래픽이 튀는 서비스라면 필요한 만큼 쓰고 끄는 모델이 잘 맞음
    • 반대로 AI 학습은 몇 주, 몇 달 동안 GPU를 계속 높은 사용률로 돌려야 하는 경우가 많음
    • 이러면 ‘쓴 만큼 낸다’가 유연성이 아니라 ‘계속 비싸게 낸다’로 바뀜. 청구서 보는 CIO 입장에선 꽤 살벌함
  • 데이터 이동 비용도 AI에서는 훨씬 크게 터짐

    • 모델을 고도화하려면 대규모 엔터프라이즈 데이터가 계속 들어가고 처리돼야 함
    • 클라우드 밖으로 데이터를 빼거나 다른 환경으로 옮길 때 발생하는 데이터 전송 비용, 즉 이그레스 요금(Egress Fee)이 누적됨
    • 데이터가 커질수록 특정 클라우드에 묶이는 데이터 중력(Data Gravity)도 강해짐

중요

> AI 인프라 비용의 핵심은 서버 단가 하나가 아니라 GPU 지속 사용, 데이터 이동 비용, 지연 시간, 규제 대응 비용을 같이 보는 데 있음.

  • 그래서 글의 핵심 키워드는 클라우드 퍼스트가 아니라 워크로드 이코노믹스(Workload Economics)임

    • 플랫폼을 먼저 정하고 거기에 워크로드를 맞추는 방식이 아님
    • 각 워크로드의 비용 구조, 성능 요구사항, 데이터 위치, 규제 조건을 보고 배치 위치를 정하는 접근임
    • 기존 멀티 클라우드가 벤더 종속 회피나 가용성 분산에 가까웠다면, 이건 비용과 성능을 노린 의도적 배치(Intentional Placement)에 가까움
  • AI 학습과 추론은 같은 AI라도 인프라 경제학이 다름

    • 대규모 언어 모델(LLM) 학습은 고강도 연산이 길게 이어지기 때문에 전용 인프라나 특화 GPU 클라우드가 유리할 수 있음
    • 사용자 서비스의 추론은 빠른 응답, 글로벌 배포, 탄력적 확장이 중요해서 퍼블릭 클라우드가 맞을 수 있음
    • 한마디로 ‘AI니까 무조건 같은 클라우드’가 아니라, 단계별로 비용 모델을 쪼개 봐야 함
  • 프라이빗 클라우드와 온프레미스가 다시 논의되는 이유도 여기에 있음

    • 지속적인 GPU 사용이 확실하다면 고정비 기반 인프라가 오히려 예측 가능함
    • 코로케이션(Co-location)이나 자체 인프라는 초기 투자 부담이 있지만, 장기 운영에서는 청구서 변동성을 줄일 수 있음
    • 하이퍼스케일러가 모든 AI 컴퓨팅 수요를 싸고 빠르게 해결해준다는 기대는 점점 약해지는 분위기임
  • 특화 GPU 클라우드 같은 대안 제공자도 커지고 있음

    • 이들은 고성능 AI 연산에 맞춘 하드웨어를 상대적으로 합리적인 비용으로 제공하는 포지션을 잡고 있음
    • 인프라 시장이 하나의 거대 플랫폼 중심에서 여러 특화 환경이 섞이는 조성적 모델(Compositional Model)로 가는 흐름임
  • 데이터 주권(Data Sovereignty)도 인프라 배치를 복잡하게 만드는 변수임

    • 국가별 데이터 보호법과 컴플라이언스가 강화되면서 데이터가 어디서 처리되는지가 중요해짐
    • 특히 공공, 금융, 의료처럼 민감 데이터가 많은 조직은 소버린 클라우드(Sovereign Cloud)나 지역 기반 플랫폼까지 같이 고려해야 함
  • 하지만 선택지가 많아질수록 진짜 어려운 건 운영 통제임

    • 여러 클라우드, 프라이빗 인프라, 특화 GPU 환경이 섞이면 단일 플랫폼보다 관리 복잡도가 훨씬 커짐
    • 개발팀이 빠른 출시만 보고 퍼블릭 클라우드에 AI 서비스를 올리는 로컬 최적화(Local Optimization)를 반복하면, 나중에 비용 부채로 돌아올 수 있음
    • 결국 전사 아키텍처 거버넌스, 통합 관리 플랫폼, 명확한 비용 측정 지표가 필요함

💡

> AI 프로젝트를 시작할 때는 모델 성능만 보지 말고 학습 주기, 추론 트래픽, 데이터 이동량, GPU 점유 시간을 먼저 산정하는 게 좋음.


기술 맥락

  • 여기서 중요한 선택은 ‘어느 클라우드를 쓸까’가 아니라 ‘어떤 워크로드를 어디에 둘까’예요. AI 학습은 GPU를 오래 붙잡고, 추론은 사용자 요청에 빠르게 답해야 해서 같은 비용 모델로 계산하면 판단이 흐려지거든요.

  • 퍼블릭 클라우드는 빠른 시작과 글로벌 배포에는 강하지만, 장기간 고정적으로 GPU를 쓰는 작업에서는 비용 예측이 어려워질 수 있어요. 그래서 전용 인프라나 특화 GPU 클라우드를 섞는 얘기가 다시 나오는 거예요.

  • 데이터 위치도 꽤 큰 변수예요. AI 모델은 데이터를 계속 먹고 자라는데, 이 데이터가 특정 클라우드에 쌓이면 이동 비용과 지연 시간이 커지고 플랫폼 종속도 강해져요.

  • 결국 조직 차원의 거버넌스가 없으면 개발팀마다 편한 환경을 고르다가 전체 비용이 터질 수 있어요. AI 인프라는 이제 기술 선택이면서 동시에 재무 리스크 관리에 가까워졌다고 보는 게 맞아요.

AI 도입이 커질수록 인프라 선택은 개발 편의성 문제가 아니라 손익계산서 문제가 돼. 특히 한국 기업도 GPU 수급, 데이터 주권, 공공·금융 규제까지 같이 봐야 해서 ‘일단 클라우드’는 점점 위험한 선택지가 될 수 있어.

댓글

댓글

댓글을 불러오는 중...

devops

NDS, 경기도 행정 시스템 21개를 클라우드로 옮긴다

NDS가 경기도의 주요 정보서비스를 클라우드 기반으로 전환하는 2차 사업을 맡았다. 통합누리집을 포함한 21개 정보시스템을 IaaS·PaaS 기반으로 이전하고, 통합 백업·모니터링·공동 활용 체계까지 같이 구축하는 프로젝트다.

devops

투라인클라우드, 클라우드 DaaS로 동남아 시장 노린다

투라인클라우드가 GDIN의 K-글로벌 해외진출 지원사업 참여기업으로 선정됐어. 회사는 클라우드 기반 DaaS 플랫폼 HyperDex를 앞세워 베트남 등 동남아 시장을 우선 공략하고, 현지 CSP·IT 서비스 기업과 협력할 계획이야. 기존 구축형 VDI의 높은 비용과 운영 복잡성을 줄이고 멀티·하이브리드 클라우드를 지원한다는 점을 내세우고 있어.

devops

NDS, 경기도 클라우드 2차 사업 수주…21개 행정 시스템 옮긴다

NDS가 경기도 주요 정보서비스를 클라우드 기반으로 전환하는 2차 사업을 수주했어. 이번 범위에는 IaaS·PaaS 기반 클라우드 시스템, 21개 정보시스템 전환, 통합 백업, 자원 모니터링, 공동 활용 컨설팅이 포함돼. 1차 사업에서 오픈소스 쿠버네티스 기반 구조를 깔았고, 이번에는 공공기관·시군 공동 활용 기반까지 확장하는 흐름이야.

devops

구글 기준 IPv6 트래픽이 드디어 50%를 찍었다

구글 측정에서 사용자 절반이 IPv6로 구글 서비스에 접속하는 수준까지 올라왔다는 소식이다. APNIC은 자체 측정이 42%라며 숫자 차이가 나는 이유를 설명하고, 이제 IPv6는 실험 단계가 아니라 인터넷 운영의 기본 구성요소가 됐다고 본다.

devops

심평원 160억 클라우드 전환 사업, 두 번 유찰 뒤 세 번째 공모

건강보험심사평가원의 160억 원 규모 클라우드·AI 전환 사업이 두 차례 유찰 뒤 세 번째 공모에 들어갔다. 생성형 AI 통합플랫폼, DUR 클라우드 이전, 디지털 메시지 전환, AI 의료영상 심사 고도화 등 성격이 다른 8개 과제를 300일 안에 끝내야 해 업계 부담이 큰 사업으로 평가된다.