본문으로 건너뛰기
피드

삼성전자 MX, 클라우드 운영을 AI옵스로 바꾼다…2028년 자율운영 목표

devops 약 5분
vote
0
댓글
북마크

삼성전자 MX사업부 클라우드 조직이 삼성페이, 삼성헬스, 빅스비 등 50여 개 서비스 운영을 AI옵스 중심으로 전환한다. 목표는 장애복구 시간 90% 이상 단축, 10분 내 장애 탐지율 99% 이상, 사람 개입 비율 20% 이하이며 2028년 자율운영 단계까지 가겠다는 계획이다.

  • 1

    삼성전자 MX사업부 클라우드 조직이 AI옵스 전환을 본격화한다.

  • 2

    장애복구 시간 90% 이상 단축, 10분 내 장애 탐지율 99% 이상, 사람 개입 20% 이하를 목표로 잡았다.

  • 3

    AWS Kiro와 Amazon Bedrock AgentCore를 활용해 IaC 변경 영향도 분석을 자동화하고 있다.

  • 4

    2028년에는 클라우드 운영 성숙도를 자율운영 단계까지 끌어올리겠다는 계획이다.

  • 삼성전자 MX사업부 클라우드 조직이 2026년을 ‘AI옵스 전환 원년’으로 잡음

    • 대상 서비스는 삼성페이, 삼성헬스, 빅스비 등 50여 개임
    • 단순 모니터링 자동화가 아니라 AI 기반 IT 운영 자동화와 최적화로 운영 방식을 바꾸겠다는 얘기임
  • 목표 수치가 꽤 빡셈

    • 장애복구 시간(MTTR)을 현재 대비 90% 이상 줄이는 게 첫 번째 목표임
    • 10분 이내 장애 탐지율은 99% 이상으로 끌어올리겠다고 함
    • 시스템 운영에서 사람 개입, 즉 휴먼인더루프 비율은 20% 이하로 낮추는 게 목표임

중요

> 이 발표에서 제일 눈에 띄는 건 ‘AI를 도입한다’가 아니라 운영 목표를 MTTR 90% 단축, 10분 내 탐지 99%, 사람 개입 20% 이하처럼 숫자로 못 박았다는 점임.

  • 삼성전자는 AI옵스를 요리와 레스토랑에 비유함

    • 사이트신뢰성엔지니어링(SRE) 엔지니어가 셰프라면, 장애 원인 추천과 변경 영향도 분석이 만들어야 할 요리라는 설명임
    • 데이터는 재료, AI 도구는 조리도구, AI옵스 플랫폼은 레스토랑을 차리는 일에 해당한다는 식임
    • 비유는 좀 귀엽지만, 핵심은 운영 자동화가 도구 몇 개 붙인다고 끝나는 게 아니라 플랫폼 설계 문제라는 점임
  • 실제 적용 사례도 AWS 기반으로 공개됨

    • AWS의 AI 기반 통합개발환경 Kiro와 AI 에이전트 플랫폼 Amazon Bedrock AgentCore를 활용 중임
    • 코드형인프라(IaC) 코드 변경이 어떤 영향을 줄지 자동 분석하는 작업을 하고 있음
    • 앞으로는 메트릭 변화 정보를 바탕으로 자동 롤백까지 구현하려는 계획임
  • 신규 서비스 아키텍처 점검도 줄이려 함

    • 기존에는 5주 이상 걸리던 점검을 2주 이내로 단축하는 과제를 추진 중임
    • 서비스 출시 전 운영 리스크를 보는 과정에 AI를 붙여 병목을 줄이겠다는 접근임
  • 운영 성숙도 로드맵은 2028년 자율운영이 목표임

    • 기존은 장애가 난 뒤 대응하는 사후대응 단계에 가까움
    • 2026년은 매니지드 단계, 2027년은 예측운영 단계, 2028년은 자율운영 단계로 끌어올리겠다는 구상임
    • 궁극적으로 반복수동작업(Toil)을 0%에 가깝게 만들고, 엔지니어가 기술적 문제 해결에 100% 집중하게 하겠다는 말도 나옴
  • 일자리 얘기에 대해서는 ‘직무가 사라진다’보다 ‘진화한다’는 관점을 냄

    • 20년 전 퍼블릭 클라우드가 등장했을 때 데이터센터 엔지니어들이 SRE와 데브옵스 포지션으로 이동한 사례를 들었음
    • AI 시대에도 새로운 형태의 엔지니어링 포지션이 생길 것이라고 봄
    • 다만 기업 IT 리더들에게 AI 에이전트 고도화만 보지 말고, 그 일을 할 엔지니어를 키우는 걸 놓치지 말라고 강조함

기술 맥락

  • 삼성 MX가 AI옵스를 택한 이유는 운영 규모가 이미 사람의 감각만으로 버티기 어려운 수준이기 때문이에요. 50여 개 서비스에서 장애 탐지, 영향도 분석, 복구 판단을 계속 사람이 붙잡고 있으면 MTTR을 크게 줄이기 힘들거든요.

  • 여기서 AI가 들어가는 위치는 운영 대시보드 옆이 아니라 변경과 장애의 의사결정 지점이에요. IaC 변경 영향도 분석, 메트릭 기반 자동 롤백처럼 실제 장애를 만들거나 막는 흐름에 붙는 게 핵심이에요.

  • MTTR 90% 단축과 10분 내 탐지율 99%는 단순한 생산성 지표가 아니에요. 대규모 소비자 서비스에서는 장애 감지와 복구가 늦어질수록 사용자 경험과 브랜드 신뢰가 바로 흔들리기 때문이에요.

  • 2028년 자율운영 목표는 한 번에 자동화 버튼을 누르겠다는 뜻보다는, 매니지드와 예측운영 단계를 거쳐 사람 개입을 줄이는 로드맵에 가까워요. 그래서 엔지니어 교육을 같이 말한 것도 꽤 현실적인 포인트예요.

운영 자동화 얘기는 흔하지만, 삼성 MX처럼 50여 개 대형 소비자 서비스를 운영하는 조직이 MTTR, 탐지율, 사람 개입률을 숫자로 박아두면 얘기가 달라진다. AI옵스가 데모가 아니라 운영 조직의 성과 지표로 들어오기 시작했다는 신호다.

댓글

댓글

댓글을 불러오는 중...

devops

가비아, AWS 중소·중견기업 클라우드 역량 인증 받음

가비아가 AWS의 ‘AWS SMB 컴피턴시’를 취득했다. 이 인증은 중소·중견기업의 클라우드 전환과 운영 지원 역량을 검증하는 제도로, 가비아는 운영 프레임워크와 고객 레퍼런스를 인정받았다.

devops

인피니언, AWS에서 자동차 MCU를 몇 분 만에 평가하는 가상 플랫폼 출시

인피니언이 AWS와 협력해 자동차용 마이크로컨트롤러(MCU)를 클라우드에서 평가하는 가상 플랫폼을 내놨어. 물리 하드웨어 대기 없이 브라우저에서 테스트·컴파일·디버깅까지 진행해 평가 주기를 수주에서 수분 단위로 줄이는 게 핵심이야.

devops

더블유피솔루션즈, ERP·MES·FEMS를 구독형으로 쓰는 클라우드 스마트팩토리 공개

더블유피솔루션즈가 STK 2026 AI+Smart Factory Show에서 SaaS형 클라우드 스마트팩토리 솔루션 FactoryOne Cloud를 공개했다. ERP, MES, FEMS 기능을 월 구독 방식으로 선택해 도입할 수 있어 제조기업의 초기 구축 부담을 낮추는 데 초점을 맞췄다.

devops

AI 시대 데이터센터 경쟁력, 이제 네트워크보다 전력과 주권이 가른다

가트너가 AI 확산으로 데이터센터 입지와 비용 구조가 크게 바뀌고 있다고 분석했다. 랙당 전력 밀도는 20kW에서 200kW로 뛰고, 서버 가격은 전년 말 대비 60~150% 급등했으며, 지정학 리스크 때문에 자체 인프라 소유 전략도 다시 부상하고 있다.

devops

독일, 공공·핵심 인프라 클라우드 데이터 상주 의무화한다

독일 정부가 2026년 하반기부터 공공 부문과 핵심 인프라 기업에 데이터 상주 의무를 단계적으로 적용하는 클라우드 주권 전략을 공식화했어. 해외 클라우드 의존도를 줄이고 독일·유럽 클라우드 생태계를 키우려는 정책이라, 유럽에 진출한 한국 기업도 계약과 아키텍처를 다시 봐야 할 이슈야.