본문으로 건너뛰기
피드

SSL 인증서가 근본적으로 위험한 기술인 이유 — Bazel 인증서 만료 사고 분석

devops 약 3분
vote
0
댓글
북마크

Google Bazel 팀의 SSL 인증서 만료 사고를 분석하며, SSL 인증서가 100% 하드 장애·운영 경험 부재·자연적 피드백 없음이라는 세 가지 특성으로 근본적으로 위험한 기술임을 설명함.

  • 1

    자동 갱신 시스템이 새 서브도메인 추가로 조용히 고장나고 알림도 안 옴

  • 2

    SSL 인증서 장애는 점진적 저하 없이 1분 만에 100% 장애

  • 3

    자동 갱신은 운영 경험 축적을 막아 장애 시 대응 역량이 0

  • 4

    시간이 트리거이므로 스테이징이나 카나리 배포가 불가능

  • 크리스마스 연휴인 박싱데이(12/26)에 Google Bazel 팀의 SSL 인증서가 만료됨. bcr.bazel.buildreleases.bazel.build 둘 다 먹통이 되면서 Bazel 사용자들 빌드가 일제히 깨져버린 사건임

  • 원인은 자동 갱신 시스템이 새로운 서브도메인 추가 때문에 망가졌는데, 갱신 실패 알림이 안 왔던 거임. 자동화를 믿고 있었는데 자동화가 조용히 죽어있었던 전형적인 케이스

  • SSL 인증서가 근본적으로 위험한 기술인 이유가 명쾌함: 운영 경험을 쌓을 기회가 없음. 자동 갱신이 잘 돌아가면 아무도 인증서를 직접 다룰 일이 없고, 문제가 터지면 처음부터 삽질을 시작해야 함

  • 실제로 Bazel 팀에서도 해당 영역에 익숙하지 않은 멤버들이 급하게 문서 읽고 권한 확보하느라 허둥댄 것으로 보고됨

⚠️주의

> SSL 인증서의 장애 모드는 점진적 저하(graceful degradation)의 정반대임. 1분 전까지 100% 정상이다가 다음 1분에 100% 장애. 중간이 없음

  • 다른 인프라 장애는 보통 서서히 악화되면서 신호를 주는데, 인증서 만료는 시간이라는 변수가 트리거이기 때문에 스테이징도, 카나리 배포도, 점진적 롤아웃도 불가능함. 사용자 코호트별로 만료 시점을 다르게 설정할 수도 없음

  • 정리하면 SSL 인증서는 ① 예상 가능한 장애 모드(만료)가 있는데 ② 폭발 반경이 최대(100% 유저 하드 장애)이고 ③ 운영자에게 자연적인 피드백이 전혀 없는 기술임. 거기에 자동 갱신까지 쓰면 대응 인력의 경험치도 0에 수렴함

  • 시니어 엔지니어한테 "만료된 SSL 인증서"라고 말하면 표정이 변하는 데는 다 이유가 있다는 거임

자동화가 역설적으로 장애 대응 역량을 약화시키는 대표적 사례. 모니터링 없는 자동화는 자동화가 아니라 방치임

댓글

댓글

댓글을 불러오는 중...

devops

포드가 AI 데이터센터 붐 수혜주로 뜬 이유는 자동차가 아니라 ESS였다

포드의 에너지 저장 사업이 AI 데이터센터 건설 붐을 타고 새 성장축으로 주목받고 있어. 전기차 수요 둔화로 남는 배터리 생산능력을 데이터센터·전력망용 ESS로 돌리는 전략이고, EDF 북미 사업체에 2028년부터 연간 4기가와트시 규모 공급 계약까지 체결했어.

devops

클라우드 빅3 차별화 논쟁, 정작 컴퓨트·스토리지는 거의 범용재가 됐다는 얘기

클라우드 업체들은 인공지능, 데이터베이스, 전용 서비스로 차별화를 강조하지만, 대부분의 기업 워크로드는 여전히 컴퓨트와 스토리지 위에서 돌아간다는 주장이다. AWS, 애저, 구글 클라우드의 핵심 인프라는 성숙도가 높아져 실질 역량 차이가 줄었고, 아키텍트는 브랜드보다 워크로드 적합성·비용·거버넌스·운영 정합성을 봐야 한다는 내용이다.

devops

DynIP, RFC 2136·IPv6·DNSSEC 지원하는 동적 DNS 서비스 공개

DynIP는 홈랩, 엣지 라우터, 인프라 팀을 겨냥한 동적 DNS(DDNS) 서비스다. 60초 안팎의 전파, RFC 2136 TSIG 기반 라우터 업데이트, 개인 도메인 연결, IPv6와 DNSSEC 지원을 핵심 기능으로 내세운다.

devops

깃허브 액션, 내부 데이터베이스 마이그레이션 여파로 4시간 지연

깃허브에서 2026년 5월 12일 13:41부터 17:43 협정세계시까지 일부 서비스 처리 지연이 발생했음. 내부 데이터베이스 마이그레이션으로 복제 지연이 생겼고, 작업 큐에 쌓이는 요청을 처리할 워커가 부족해진 게 원인이었음.

devops

AI 강국 경쟁, 결국 전기와 데이터센터 싸움으로 간다

AI 경쟁의 핵심이 모델과 반도체만이 아니라 안정적인 전력 확보로 이동하고 있다는 분석이야. 글로벌 데이터센터 전력 사용량은 2024년 400TWh에서 2030년 800TWh, 2050년 3500TWh 이상으로 커질 전망이고, 한국도 AI 데이터센터와 에너지 전략을 같이 설계해야 하는 상황이야.