---
title: "삼성전자 MX, 클라우드 운영을 AI옵스로 바꾼다…2028년 자율운영 목표"
published: 2026-06-24T07:05:04.740Z
canonical: https://jeff.news/article/4317
---
# 삼성전자 MX, 클라우드 운영을 AI옵스로 바꾼다…2028년 자율운영 목표

삼성전자 MX사업부 클라우드 조직이 삼성페이, 삼성헬스, 빅스비 등 50여 개 서비스 운영을 AI옵스 중심으로 전환한다. 목표는 장애복구 시간 90% 이상 단축, 10분 내 장애 탐지율 99% 이상, 사람 개입 비율 20% 이하이며 2028년 자율운영 단계까지 가겠다는 계획이다.

- 삼성전자 MX사업부 클라우드 조직이 2026년을 ‘AI옵스 전환 원년’으로 잡음
  - 대상 서비스는 삼성페이, 삼성헬스, 빅스비 등 50여 개임
  - 단순 모니터링 자동화가 아니라 AI 기반 IT 운영 자동화와 최적화로 운영 방식을 바꾸겠다는 얘기임

- 목표 수치가 꽤 빡셈
  - 장애복구 시간(MTTR)을 현재 대비 90% 이상 줄이는 게 첫 번째 목표임
  - 10분 이내 장애 탐지율은 99% 이상으로 끌어올리겠다고 함
  - 시스템 운영에서 사람 개입, 즉 휴먼인더루프 비율은 20% 이하로 낮추는 게 목표임

> [!IMPORTANT]
> 이 발표에서 제일 눈에 띄는 건 ‘AI를 도입한다’가 아니라 운영 목표를 MTTR 90% 단축, 10분 내 탐지 99%, 사람 개입 20% 이하처럼 숫자로 못 박았다는 점임.

- 삼성전자는 AI옵스를 요리와 레스토랑에 비유함
  - 사이트신뢰성엔지니어링(SRE) 엔지니어가 셰프라면, 장애 원인 추천과 변경 영향도 분석이 만들어야 할 요리라는 설명임
  - 데이터는 재료, AI 도구는 조리도구, AI옵스 플랫폼은 레스토랑을 차리는 일에 해당한다는 식임
  - 비유는 좀 귀엽지만, 핵심은 운영 자동화가 도구 몇 개 붙인다고 끝나는 게 아니라 플랫폼 설계 문제라는 점임

- 실제 적용 사례도 AWS 기반으로 공개됨
  - AWS의 AI 기반 통합개발환경 Kiro와 AI 에이전트 플랫폼 Amazon Bedrock AgentCore를 활용 중임
  - 코드형인프라(IaC) 코드 변경이 어떤 영향을 줄지 자동 분석하는 작업을 하고 있음
  - 앞으로는 메트릭 변화 정보를 바탕으로 자동 롤백까지 구현하려는 계획임

- 신규 서비스 아키텍처 점검도 줄이려 함
  - 기존에는 5주 이상 걸리던 점검을 2주 이내로 단축하는 과제를 추진 중임
  - 서비스 출시 전 운영 리스크를 보는 과정에 AI를 붙여 병목을 줄이겠다는 접근임

- 운영 성숙도 로드맵은 2028년 자율운영이 목표임
  - 기존은 장애가 난 뒤 대응하는 사후대응 단계에 가까움
  - 2026년은 매니지드 단계, 2027년은 예측운영 단계, 2028년은 자율운영 단계로 끌어올리겠다는 구상임
  - 궁극적으로 반복수동작업(Toil)을 0%에 가깝게 만들고, 엔지니어가 기술적 문제 해결에 100% 집중하게 하겠다는 말도 나옴

- 일자리 얘기에 대해서는 ‘직무가 사라진다’보다 ‘진화한다’는 관점을 냄
  - 20년 전 퍼블릭 클라우드가 등장했을 때 데이터센터 엔지니어들이 SRE와 데브옵스 포지션으로 이동한 사례를 들었음
  - AI 시대에도 새로운 형태의 엔지니어링 포지션이 생길 것이라고 봄
  - 다만 기업 IT 리더들에게 AI 에이전트 고도화만 보지 말고, 그 일을 할 엔지니어를 키우는 걸 놓치지 말라고 강조함

---

## 기술 맥락

- 삼성 MX가 AI옵스를 택한 이유는 운영 규모가 이미 사람의 감각만으로 버티기 어려운 수준이기 때문이에요. 50여 개 서비스에서 장애 탐지, 영향도 분석, 복구 판단을 계속 사람이 붙잡고 있으면 MTTR을 크게 줄이기 힘들거든요.

- 여기서 AI가 들어가는 위치는 운영 대시보드 옆이 아니라 변경과 장애의 의사결정 지점이에요. IaC 변경 영향도 분석, 메트릭 기반 자동 롤백처럼 실제 장애를 만들거나 막는 흐름에 붙는 게 핵심이에요.

- MTTR 90% 단축과 10분 내 탐지율 99%는 단순한 생산성 지표가 아니에요. 대규모 소비자 서비스에서는 장애 감지와 복구가 늦어질수록 사용자 경험과 브랜드 신뢰가 바로 흔들리기 때문이에요.

- 2028년 자율운영 목표는 한 번에 자동화 버튼을 누르겠다는 뜻보다는, 매니지드와 예측운영 단계를 거쳐 사람 개입을 줄이는 로드맵에 가까워요. 그래서 엔지니어 교육을 같이 말한 것도 꽤 현실적인 포인트예요.

## 핵심 포인트

- 삼성전자 MX사업부 클라우드 조직이 AI옵스 전환을 본격화한다.
- 장애복구 시간 90% 이상 단축, 10분 내 장애 탐지율 99% 이상, 사람 개입 20% 이하를 목표로 잡았다.
- AWS Kiro와 Amazon Bedrock AgentCore를 활용해 IaC 변경 영향도 분석을 자동화하고 있다.
- 2028년에는 클라우드 운영 성숙도를 자율운영 단계까지 끌어올리겠다는 계획이다.

## 인사이트

운영 자동화 얘기는 흔하지만, 삼성 MX처럼 50여 개 대형 소비자 서비스를 운영하는 조직이 MTTR, 탐지율, 사람 개입률을 숫자로 박아두면 얘기가 달라진다. AI옵스가 데모가 아니라 운영 조직의 성과 지표로 들어오기 시작했다는 신호다.
