---
title: "GitHub, 최근 연이은 장애에 대한 상세 포스트모템 공개"
published: 2026-03-11T22:43:45.000Z
canonical: https://jeff.news/article/446
---
# GitHub, 최근 연이은 장애에 대한 상세 포스트모템 공개

GitHub이 2~3월 대규모 장애 3건에 대한 포스트모템을 공개. 트래픽 폭증, 캐시 TTL 변경, Redis 설정 문제 등이 근본 원인이었고 격리 부족과 로드 셰딩 미비가 장애를 확산시킴. Azure 마이그레이션 가속화와 모놀리스 분해로 대응 중.

- GitHub이 2월~3월 사이 발생한 대규모 장애 3건(2/2, 2/9, 3/5)에 대한 포스트모템을 공개함
- **2/9 장애**: 인기 클라이언트 앱 2개가 읽기 트래픽을 10배 폭증시킨 업데이트를 배포했는데, 동시에 캐시 TTL을 12시간에서 2시간으로 줄이고 새 모델까지 릴리스하면서 인증/사용자 관리 DB 클러스터가 과부하로 터짐. 원래 사용자당 몇 바이트였던 데이터가 시간이 지나면서 킬로바이트 단위로 불어난 게 근본 원인이었음
- **2/2 장애**: Actions 호스티드 러너 장애. 텔레메트리 갭 때문에 보안 정책이 내부 스토리지 계정에 잘못 적용되면서 전 리전이 동시에 영향받음. 평소엔 특정 리전만 문제돼서 자동 전환되는 구조였는데 이번엔 전부 다 걸림
- **3/5 장애**: Actions용 Redis 클러스터에서 자동 페일오버는 정상 동작했지만, 숨어있던 설정 문제 때문에 페일오버 후 쓰기 가능한 프라이머리가 없는 상태가 됨. 수동 복구가 필요했음
- 공통 원인으로 **격리 부족, 로드 셰딩 미비, 모니터링 갭**을 꼽음
- 대응 계획: 사용자 캐시 시스템 재설계, 인프라 용량 전면 감사, 핵심 의존성 격리, Azure 마이그레이션 가속화(현재 12.5% → 7월까지 50%), 모놀리스 분해
- Azure 마이그레이션은 단기적으로는 하이브리드 인프라 복원력 확보, 장기적으로는 매니지드 서비스 활용한 글로벌 가용성 확보가 목표임

[원문 보기](https://github.blog/news-insights/company-news/addressing-githubs-recent-availability-issues-2/)

## 핵심 포인트

- 인기 클라이언트 앱의 10배 트래픽 증가 + 캐시 TTL 축소 + 모델 릴리스가 동시에 겹쳐 인증 DB 과부하
- Actions 장애 2건은 텔레메트리 갭과 Redis 페일오버 설정 문제가 원인
- 공통 원인: 격리 부족, 로드 셰딩 미비, 모니터링 갭
- Azure 마이그레이션 현재 12.5%에서 7월까지 50% 목표

## 인사이트

몇 바이트로 시작한 사용자 설정 데이터가 킬로바이트로 불어나는 걸 캐시 TTL이 가려주고 있었다는 점이 인상적임. 모니터링이 '정상 상태'만 보고 있으면 시한폭탄을 놓치게 됨.
