0
GitHub, 최근 연이은 장애에 대한 상세 포스트모템 공개
devops
요약
기사 전체 정리
GitHub, 최근 연이은 장애에 대한 상세 포스트모템 공개
- GitHub이 2월~3월 사이 발생한 대규모 장애 3건(2/2, 2/9, 3/5)에 대한 포스트모템을 공개함
- 2/9 장애: 인기 클라이언트 앱 2개가 읽기 트래픽을 10배 폭증시킨 업데이트를 배포했는데, 동시에 캐시 TTL을 12시간에서 2시간으로 줄이고 새 모델까지 릴리스하면서 인증/사용자 관리 DB 클러스터가 과부하로 터짐. 원래 사용자당 몇 바이트였던 데이터가 시간이 지나면서 킬로바이트 단위로 불어난 게 근본 원인이었음
- 2/2 장애: Actions 호스티드 러너 장애. 텔레메트리 갭 때문에 보안 정책이 내부 스토리지 계정에 잘못 적용되면서 전 리전이 동시에 영향받음. 평소엔 특정 리전만 문제돼서 자동 전환되는 구조였는데 이번엔 전부 다 걸림
- 3/5 장애: Actions용 Redis 클러스터에서 자동 페일오버는 정상 동작했지만, 숨어있던 설정 문제 때문에 페일오버 후 쓰기 가능한 프라이머리가 없는 상태가 됨. 수동 복구가 필요했음
- 공통 원인으로 격리 부족, 로드 셰딩 미비, 모니터링 갭을 꼽음
- 대응 계획: 사용자 캐시 시스템 재설계, 인프라 용량 전면 감사, 핵심 의존성 격리, Azure 마이그레이션 가속화(현재 12.5% → 7월까지 50%), 모놀리스 분해
- Azure 마이그레이션은 단기적으로는 하이브리드 인프라 복원력 확보, 장기적으로는 매니지드 서비스 활용한 글로벌 가용성 확보가 목표임
댓글
댓글
댓글을 불러오는 중...