본문으로 건너뛰기
피드

GitHub, 최근 연이은 장애에 대한 상세 포스트모템 공개

devops 약 3분

GitHub이 2~3월 대규모 장애 3건에 대한 포스트모템을 공개. 트래픽 폭증, 캐시 TTL 변경, Redis 설정 문제 등이 근본 원인이었고 격리 부족과 로드 셰딩 미비가 장애를 확산시킴. Azure 마이그레이션 가속화와 모놀리스 분해로 대응 중.

  • 1

    인기 클라이언트 앱의 10배 트래픽 증가 + 캐시 TTL 축소 + 모델 릴리스가 동시에 겹쳐 인증 DB 과부하

  • 2

    Actions 장애 2건은 텔레메트리 갭과 Redis 페일오버 설정 문제가 원인

  • 3

    공통 원인: 격리 부족, 로드 셰딩 미비, 모니터링 갭

  • 4

    Azure 마이그레이션 현재 12.5%에서 7월까지 50% 목표

  • GitHub이 2월~3월 사이 발생한 대규모 장애 3건(2/2, 2/9, 3/5)에 대한 포스트모템을 공개함
  • 2/9 장애: 인기 클라이언트 앱 2개가 읽기 트래픽을 10배 폭증시킨 업데이트를 배포했는데, 동시에 캐시 TTL을 12시간에서 2시간으로 줄이고 새 모델까지 릴리스하면서 인증/사용자 관리 DB 클러스터가 과부하로 터짐. 원래 사용자당 몇 바이트였던 데이터가 시간이 지나면서 킬로바이트 단위로 불어난 게 근본 원인이었음
  • 2/2 장애: Actions 호스티드 러너 장애. 텔레메트리 갭 때문에 보안 정책이 내부 스토리지 계정에 잘못 적용되면서 전 리전이 동시에 영향받음. 평소엔 특정 리전만 문제돼서 자동 전환되는 구조였는데 이번엔 전부 다 걸림
  • 3/5 장애: Actions용 Redis 클러스터에서 자동 페일오버는 정상 동작했지만, 숨어있던 설정 문제 때문에 페일오버 후 쓰기 가능한 프라이머리가 없는 상태가 됨. 수동 복구가 필요했음
  • 공통 원인으로 격리 부족, 로드 셰딩 미비, 모니터링 갭을 꼽음
  • 대응 계획: 사용자 캐시 시스템 재설계, 인프라 용량 전면 감사, 핵심 의존성 격리, Azure 마이그레이션 가속화(현재 12.5% → 7월까지 50%), 모놀리스 분해
  • Azure 마이그레이션은 단기적으로는 하이브리드 인프라 복원력 확보, 장기적으로는 매니지드 서비스 활용한 글로벌 가용성 확보가 목표임

원문 보기

몇 바이트로 시작한 사용자 설정 데이터가 킬로바이트로 불어나는 걸 캐시 TTL이 가려주고 있었다는 점이 인상적임. 모니터링이 '정상 상태'만 보고 있으면 시한폭탄을 놓치게 됨.

댓글

댓글

댓글을 불러오는 중...

devops

디지털 스택을 유럽으로 옮겨보니, 생각보다 꽤 실전적이었다

한 개발자가 분석, 메일, 비밀번호 관리, 컴퓨트, 오브젝트 스토리지, 백업, 이메일, 에러 추적, AI API까지 유럽 중심 스택으로 옮긴 경험을 정리한 글이다. 핵심은 반미 감정이 아니라 데이터가 어디에 있고, 누가 접근할 수 있고, 정치나 기업 정책 변화에 얼마나 휘둘리는지를 의식하자는 얘기다.

devops

개인용 컴퓨터 다음은 개인용 클러스터라는 주장

이 글은 AI 시대에 개인 한 명이 쓰는 컴퓨팅 자원이 점점 ‘클러스터 한 덩어리’ 수준으로 커질 거라고 주장한다. PC가 직장, 취미 개발자, 게임 문화로 퍼졌듯이 개인용 클러스터도 업무용 AI, 오픈소스 실험, 게임 같은 흐름을 타고 대중화될 수 있다는 시나리오다.

devops

AI 에이전트 부하에 흔들린 GitHub, 왜 다른 서비스보다 더 아팠나

GitHub가 최근 몇 달 동안 가용성 저하, 검색 장애, GitHub Actions 문제, 심지어 squash merge에서 커밋이 빠지는 데이터 무결성 사고까지 겪었다. GitHub CTO는 AI 에이전트발 부하 증가를 원인으로 들었지만, 실제로는 2년간 약 3.5배 증가한 부하와 Azure 이전, 오래된 시스템, 조직적 지연이 겹친 문제에 가깝다. 개발자 입장에선 GitHub가 ‘없으면 안 되는 도구’에서 ‘업무를 막는 병목’으로 보이기 시작했다는 게 핵심이다.

devops

한국 클라우드 시장, 이제 GPU랑 데이터센터 싸움으로 넘어감

국내 클라우드 서비스 제공사들이 AI 전환 수요를 잡기 위해 GPUaaS, 데이터센터, 공공 클라우드 사업에 공격적으로 투자하고 있어. 네이버클라우드, KT클라우드, NHN클라우드 모두 2026년 1분기 실적에서 AI 인프라를 핵심 성장축으로 내세웠고, 정부의 2조805억원 규모 GPU 구축 사업이 판을 더 키우는 중이야.

devops

칩값 뛰니 K게임의 콘솔·피시 전환 해법으로 다시 뜨는 클라우드 게임

국내 게임사들이 모바일 중심에서 콘솔·피시로 넘어가려는 타이밍에 고성능 지피유와 콘솔 가격 상승이 발목을 잡고 있다. 이용자 입장에서는 300만원대 게이밍 피시, 오른 콘솔 가격, 스팀 가격 기준 개편까지 겹치면서 고사양 게임 접근성이 떨어지는 상황이다. 업계는 원격 서버에서 게임을 실행해 스트리밍하는 클라우드 게임을 다시 현실적인 대안으로 보고 있다.