본문으로 건너뛰기
0
r/jeffnews HN 약 3분

GitHub, 최근 연이은 장애에 대한 상세 포스트모템 공개

devops

요약

GitHub이 2~3월 대규모 장애 3건에 대한 포스트모템을 공개. 트래픽 폭증, 캐시 TTL 변경, Redis 설정 문제 등이 근본 원인이었고 격리 부족과 로드 셰딩 미비가 장애를 확산시킴. Azure 마이그레이션 가속화와 모놀리스 분해로 대응 중.

기사 전체 정리

GitHub, 최근 연이은 장애에 대한 상세 포스트모템 공개

  • GitHub이 2월~3월 사이 발생한 대규모 장애 3건(2/2, 2/9, 3/5)에 대한 포스트모템을 공개함
  • 2/9 장애: 인기 클라이언트 앱 2개가 읽기 트래픽을 10배 폭증시킨 업데이트를 배포했는데, 동시에 캐시 TTL을 12시간에서 2시간으로 줄이고 새 모델까지 릴리스하면서 인증/사용자 관리 DB 클러스터가 과부하로 터짐. 원래 사용자당 몇 바이트였던 데이터가 시간이 지나면서 킬로바이트 단위로 불어난 게 근본 원인이었음
  • 2/2 장애: Actions 호스티드 러너 장애. 텔레메트리 갭 때문에 보안 정책이 내부 스토리지 계정에 잘못 적용되면서 전 리전이 동시에 영향받음. 평소엔 특정 리전만 문제돼서 자동 전환되는 구조였는데 이번엔 전부 다 걸림
  • 3/5 장애: Actions용 Redis 클러스터에서 자동 페일오버는 정상 동작했지만, 숨어있던 설정 문제 때문에 페일오버 후 쓰기 가능한 프라이머리가 없는 상태가 됨. 수동 복구가 필요했음
  • 공통 원인으로 격리 부족, 로드 셰딩 미비, 모니터링 갭을 꼽음
  • 대응 계획: 사용자 캐시 시스템 재설계, 인프라 용량 전면 감사, 핵심 의존성 격리, Azure 마이그레이션 가속화(현재 12.5% → 7월까지 50%), 모놀리스 분해
  • Azure 마이그레이션은 단기적으로는 하이브리드 인프라 복원력 확보, 장기적으로는 매니지드 서비스 활용한 글로벌 가용성 확보가 목표임

원문 보기

핵심 포인트

  • 인기 클라이언트 앱의 10배 트래픽 증가 + 캐시 TTL 축소 + 모델 릴리스가 동시에 겹쳐 인증 DB 과부하
  • Actions 장애 2건은 텔레메트리 갭과 Redis 페일오버 설정 문제가 원인
  • 공통 원인: 격리 부족, 로드 셰딩 미비, 모니터링 갭
  • Azure 마이그레이션 현재 12.5%에서 7월까지 50% 목표

인사이트

몇 바이트로 시작한 사용자 설정 데이터가 킬로바이트로 불어나는 걸 캐시 TTL이 가려주고 있었다는 점이 인상적임. 모니터링이 '정상 상태'만 보고 있으면 시한폭탄을 놓치게 됨.

댓글

댓글

댓글을 불러오는 중...

devops

살면서 몰랐던 셸 트릭 모음 — 터미널에서 Backspace 꾹 누르기 이제 그만

대부분의 개발자가 ls, cd, grep 이후로 터미널 학습을 멈추는데, 셸에는 1989년부터 존재하던 생산성 트릭들이 가득함. POSIX 범용 단축키부터 Bash/Zsh 전용 기능까지, 하루 하나씩 익히면 터미널 생활이 완전히 달라짐.

devops

Wine 11, 드디어 커널 수준에서 Windows 동기화 재설계 — FPS 678% 상승 레전드

Wine 11이 출시됐는데 이거 그냥 버전업이 아님. **NTSYNC**라는 커널 레벨 동기화 드라이버가 탑재되면서 일부 게임 FPS가 최대 678% 폭등했고, **WoW64** 아키텍처도 완성돼서 32비트 앱 실행에 더 이상 삽질 안 해도 됨. Proton이랑 Steam Deck도 혜택 받는 구조라 Linux 게이밍 역사상 손꼽히는 업데이트임.

devops

NixOS 찬양글 - 이게 바로 OS가 나아가야 할 방향 아님?

NixOS 유저가 왜 NixOS에 진심인지 열변을 토하는 글임. 핵심은 NixOS 자체보다 **Nix 패키지 매니저**의 선언적·재현 가능한 철학에 있고, LLM 코딩 에이전트 시대에 특히 더 찰떡이라고 함. Docker보다 낫다는 주장도 ㄹㅇ 공감 포인트.

devops

Amazon ECR 풀스루 캐시, 이제 Chainguard 레지스트리도 지원

Amazon ECR의 풀스루 캐시가 Chainguard를 업스트림 소스로 지원하기 시작. 별도 도구 없이 Chainguard 이미지 동기화 가능.

devops

Anti-Slop: AI 슬롭 PR을 자동 감지하고 닫아주는 GitHub Action

31개 체크 규칙으로 저품질 AI 생성 PR을 15초 내에 감지하고 자동으로 닫는 GitHub Action. 130+ 수동 리뷰 패턴 기반, 54개 설정 옵션, Coolify(50K+ 스타) 운영 경험 반영.