본문으로 건너뛰기
피드

깃허브 액션, 내부 데이터베이스 마이그레이션 여파로 4시간 지연

devops 약 4분
vote
0
댓글
북마크

깃허브에서 2026년 5월 12일 13:41부터 17:43 협정세계시까지 일부 서비스 처리 지연이 발생했음. 내부 데이터베이스 마이그레이션으로 복제 지연이 생겼고, 작업 큐에 쌓이는 요청을 처리할 워커가 부족해진 게 원인이었음.

  • 1

    코드 스캐닝 검사 실행의 53%가 완료까지 15분 넘게 걸렸음

  • 2

    알림은 평균 22분, 슬랙 연동 웹훅은 평균 20분 지연됐음

  • 3

    깃허브는 워커를 증설해 복구했고, 고사용량 공유 큐에는 전용 워커 풀을 만들 계획임

  • 깃허브에서 2026년 5월 12일 13:41부터 17:43 협정세계시까지 약 4시간 동안 일부 서비스 처리 지연이 발생함

    • 영향받은 쪽은 코드 스캐닝, CodeQL 액션 워크플로, 알림, 웹훅, 슬랙 연동 웹훅 쪽이었음
    • 단순히 화면이 안 뜨는 장애라기보다는, 작업이 큐에 쌓이고 처리 완료가 늦어지는 형태에 가까웠음
  • 가장 크게 튄 숫자는 코드 스캐닝 쪽임

    • 코드 스캐닝 검사 실행의 53%가 완료까지 15분 넘게 걸렸음
    • CodeQL 액션은 대기 상태에 오래 머물거나, 시간 초과 때문에 실패할 수 있는 상태였음
  • 알림과 연동 계열도 같이 밀렸음

    • 깃허브 알림은 평균 22분 늦게 전달됐음
    • 슬랙 연동 웹훅은 평균 20분 지연됐고, 일반 웹훅도 한때 성능 저하가 확인됐음

중요

> 원인은 내부 데이터베이스 마이그레이션 중 발생한 복제 지연이었음. 이 지연 때문에 높은 작업 유입량을 처리할 워커 용량이 부족해졌고, 여러 공유 큐가 같이 밀린 구조임.

  • 복구 방식은 꽤 현실적임. 병목이 큐 처리였으니 워커를 늘려서 밀린 작업을 빼냈음

    • 16:18 협정세계시쯤 대부분의 지연이 큐 서비스와 관련됐다고 파악했고, 스케일 아웃 초기 신호가 좋아졌다고 공지함
    • 16:28에는 웹훅이 정상 동작한다고 했고, 16:59에는 CodeQL이 완전히 복구됐다고 알림
    • 17:43에는 모든 서비스가 정상 처리 시간으로 돌아왔다고 마무리함
  • 재발 방지책으로는 고사용량 공유 큐 일부에 전용 워커 풀을 만들겠다고 함

    • 핵심은 “다 같이 쓰는 큐”에서 특정 작업군이 밀릴 때 다른 서비스까지 같이 흔들리는 걸 줄이겠다는 방향임
    • CI, 보안 검사, 알림, 외부 연동이 한 큐 구조에 강하게 묶이면 장애 반경이 생각보다 커질 수 있다는 얘기임

기술 맥락

  • 이번 장애의 핵심은 깃허브 액션 자체가 망가졌다기보다, 비동기 작업 처리 계층이 밀렸다는 점이에요. 코드 스캐닝이나 웹훅 같은 기능은 사용자가 누른 즉시 끝나는 일이 아니라 큐에 작업을 넣고 워커가 처리하는 구조라서, 큐가 밀리면 겉으로는 여러 기능이 동시에 느려진 것처럼 보여요.

  • 원인으로 나온 복제 지연은 데이터베이스 마이그레이션 때 꽤 까다로운 변수예요. 읽기 복제본이나 내부 처리 시스템이 최신 상태를 제때 못 따라오면, 작업을 안전하게 처리하기 위해 기다리거나 재시도하는 흐름이 늘어나고, 그 결과 워커가 감당해야 할 부하가 커지거든요.

  • 깃허브가 워커를 늘려 복구한 건 병목 지점이 처리량이었다는 뜻이에요. 다만 워커만 계속 늘리는 방식은 비용과 운영 복잡도가 커지기 때문에, 사용량이 큰 공유 큐를 전용 워커 풀로 분리하려는 후속 조치가 나온 거예요.

  • 한국 개발팀 입장에서도 배울 게 있는 장애예요. 배포 파이프라인, 보안 스캔, 알림, 외부 웹훅이 같은 큐 인프라를 공유한다면, 하나의 마이그레이션이나 트래픽 급증이 여러 개발 워크플로를 동시에 늦출 수 있거든요.

장애 자체보다 흥미로운 포인트는 병목이 코드 실행이 아니라 큐와 워커 용량에서 터졌다는 점임. 대형 플랫폼에서 내부 마이그레이션 하나가 코드 스캐닝, 알림, 웹훅까지 같이 흔드는 전형적인 공유 인프라 리스크 사례로 볼 만함.

댓글

댓글

댓글을 불러오는 중...

devops

포드가 AI 데이터센터 붐 수혜주로 뜬 이유는 자동차가 아니라 ESS였다

포드의 에너지 저장 사업이 AI 데이터센터 건설 붐을 타고 새 성장축으로 주목받고 있어. 전기차 수요 둔화로 남는 배터리 생산능력을 데이터센터·전력망용 ESS로 돌리는 전략이고, EDF 북미 사업체에 2028년부터 연간 4기가와트시 규모 공급 계약까지 체결했어.

devops

클라우드 빅3 차별화 논쟁, 정작 컴퓨트·스토리지는 거의 범용재가 됐다는 얘기

클라우드 업체들은 인공지능, 데이터베이스, 전용 서비스로 차별화를 강조하지만, 대부분의 기업 워크로드는 여전히 컴퓨트와 스토리지 위에서 돌아간다는 주장이다. AWS, 애저, 구글 클라우드의 핵심 인프라는 성숙도가 높아져 실질 역량 차이가 줄었고, 아키텍트는 브랜드보다 워크로드 적합성·비용·거버넌스·운영 정합성을 봐야 한다는 내용이다.

devops

DynIP, RFC 2136·IPv6·DNSSEC 지원하는 동적 DNS 서비스 공개

DynIP는 홈랩, 엣지 라우터, 인프라 팀을 겨냥한 동적 DNS(DDNS) 서비스다. 60초 안팎의 전파, RFC 2136 TSIG 기반 라우터 업데이트, 개인 도메인 연결, IPv6와 DNSSEC 지원을 핵심 기능으로 내세운다.

devops

AI 강국 경쟁, 결국 전기와 데이터센터 싸움으로 간다

AI 경쟁의 핵심이 모델과 반도체만이 아니라 안정적인 전력 확보로 이동하고 있다는 분석이야. 글로벌 데이터센터 전력 사용량은 2024년 400TWh에서 2030년 800TWh, 2050년 3500TWh 이상으로 커질 전망이고, 한국도 AI 데이터센터와 에너지 전략을 같이 설계해야 하는 상황이야.

devops

Jira는 튜링 완전하다: Atlassian Automation으로 민스키 머신 만들기

한 개발자가 Jira Automation으로 2카운터 민스키 머신을 구현해 Jira가 튜링 완전하다는 주장을 실제 구성과 실행 추적으로 증명했다. 에픽 상태를 명령 포인터로 쓰고, 연결된 이슈 개수를 레지스터로 쓰며, 이슈 생성·삭제·전환으로 INC, DEC, 분기를 흉내 낸다.