본문으로 건너뛰기
피드

GitHub, 최근 연이은 장애에 대한 상세 포스트모템 공개

devops 약 3분
vote
0
댓글
북마크

GitHub이 2~3월 대규모 장애 3건에 대한 포스트모템을 공개. 트래픽 폭증, 캐시 TTL 변경, Redis 설정 문제 등이 근본 원인이었고 격리 부족과 로드 셰딩 미비가 장애를 확산시킴. Azure 마이그레이션 가속화와 모놀리스 분해로 대응 중.

  • 1

    인기 클라이언트 앱의 10배 트래픽 증가 + 캐시 TTL 축소 + 모델 릴리스가 동시에 겹쳐 인증 DB 과부하

  • 2

    Actions 장애 2건은 텔레메트리 갭과 Redis 페일오버 설정 문제가 원인

  • 3

    공통 원인: 격리 부족, 로드 셰딩 미비, 모니터링 갭

  • 4

    Azure 마이그레이션 현재 12.5%에서 7월까지 50% 목표

  • GitHub이 2월~3월 사이 발생한 대규모 장애 3건(2/2, 2/9, 3/5)에 대한 포스트모템을 공개함
  • 2/9 장애: 인기 클라이언트 앱 2개가 읽기 트래픽을 10배 폭증시킨 업데이트를 배포했는데, 동시에 캐시 TTL을 12시간에서 2시간으로 줄이고 새 모델까지 릴리스하면서 인증/사용자 관리 DB 클러스터가 과부하로 터짐. 원래 사용자당 몇 바이트였던 데이터가 시간이 지나면서 킬로바이트 단위로 불어난 게 근본 원인이었음
  • 2/2 장애: Actions 호스티드 러너 장애. 텔레메트리 갭 때문에 보안 정책이 내부 스토리지 계정에 잘못 적용되면서 전 리전이 동시에 영향받음. 평소엔 특정 리전만 문제돼서 자동 전환되는 구조였는데 이번엔 전부 다 걸림
  • 3/5 장애: Actions용 Redis 클러스터에서 자동 페일오버는 정상 동작했지만, 숨어있던 설정 문제 때문에 페일오버 후 쓰기 가능한 프라이머리가 없는 상태가 됨. 수동 복구가 필요했음
  • 공통 원인으로 격리 부족, 로드 셰딩 미비, 모니터링 갭을 꼽음
  • 대응 계획: 사용자 캐시 시스템 재설계, 인프라 용량 전면 감사, 핵심 의존성 격리, Azure 마이그레이션 가속화(현재 12.5% → 7월까지 50%), 모놀리스 분해
  • Azure 마이그레이션은 단기적으로는 하이브리드 인프라 복원력 확보, 장기적으로는 매니지드 서비스 활용한 글로벌 가용성 확보가 목표임

원문 보기

몇 바이트로 시작한 사용자 설정 데이터가 킬로바이트로 불어나는 걸 캐시 TTL이 가려주고 있었다는 점이 인상적임. 모니터링이 '정상 상태'만 보고 있으면 시한폭탄을 놓치게 됨.

댓글

댓글

댓글을 불러오는 중...

devops

하이퍼스케일 데이터, 비트코인 채굴장을 최대 30억 달러짜리 AI 데이터센터로 전환

하이퍼스케일 데이터의 자회사 ACS가 캘리포니아 네오클라우드 업체와 미시간 캠퍼스 AI 컴퓨팅 용량 공급 계약을 맺었어. 초기 20메가와트로 시작해 최대 52메가와트까지 늘릴 수 있고, 모든 옵션이 행사되면 계약 규모가 30억 달러를 넘을 수 있다는 내용이야.

devops

KT, 분사했던 KT클라우드 다시 합치나…AIDC 투자 때문에 판 다시 짜는 중

KT가 2022년 분사한 KT클라우드를 다시 합치는 방안을 검토 중인 것으로 알려졌어. 클라우드, 인공지능 데이터센터, 네트워크 인프라를 한 몸처럼 묶어 B2B 경쟁력을 키우려는 흐름으로 읽혀. 다만 KT는 아직 구체적으로 검토한 바 없다는 입장이야.

devops

KT, KT클라우드 다시 합치나…AI 인프라 패키지 전략 시동

KT가 2022년 분사했던 KT클라우드를 다시 흡수하는 방안을 검토 중인 것으로 알려졌다. 인공지능 확산으로 클라우드, 데이터센터, 네트워크를 묶은 기업간거래 인프라 수요가 커지면서 KT 본체의 자금력과 영업력을 활용하려는 전략으로 보인다. 다만 외부 투자자 지분 처리와 통신·클라우드 조직 통합이 실제 관건이다.

devops

Bunny DNS, 쿼리 과금 없애고 500개 도메인까지 무료로 푼다

bunny.net이 Bunny DNS의 DNS 쿼리 과금을 없애고 계정당 최대 500개 도메인까지 무료 DNS 호스팅을 제공하기로 했어. 단순한 무료화가 아니라 CDN, 엣지 보안, 스마트 라우팅을 DNS에서 바로 연결하는 방향으로 플랫폼 진입점을 재정리하는 움직임이야.

devops

가비아, AWS 중소·중견기업 클라우드 역량 인증 받음

가비아가 AWS의 ‘AWS SMB 컴피턴시’를 취득했다. 이 인증은 중소·중견기업의 클라우드 전환과 운영 지원 역량을 검증하는 제도로, 가비아는 운영 프레임워크와 고객 레퍼런스를 인정받았다.