본문으로 건너뛰기
피드

AWS 미국 동부 리전 장애, 코인베이스와 팬듀얼 거래까지 멈췄다

devops 약 5분

AWS의 핵심 리전인 미국 동부 1 리전에서 데이터센터 과열 문제가 터지면서 코인베이스와 팬듀얼 같은 서비스가 영향을 받았다. AWS는 단일 가용 영역 문제라고 설명했지만, 복구가 예상보다 느려지면서 핵심 거래 서비스까지 장시간 흔들렸다.

  • 1

    장애 원인은 미국 버지니아 북부의 미국 동부 1 리전 데이터센터 과열 문제였음

  • 2

    AWS는 단일 가용 영역의 냉각 용량과 EC2 인스턴스 장애를 복구 중이라고 밝힘

  • 3

    코인베이스는 여러 AWS 영역 장애로 핵심 거래 서비스가 장시간 중단됐다고 설명함

  • 4

    팬듀얼 이용자들은 접속 불가와 현금화 실패로 손실을 호소함

  • AWS의 미국 동부 1 리전에서 장애가 나면서 코인베이스, 팬듀얼 같은 실시간 거래 서비스가 흔들림

    • AWS는 목요일 저녁 8시 25분 미 동부시간에 처음으로 “인스턴스 장애를 조사 중”이라고 공지함
    • 금요일 오후 3시 29분 업데이트에서는 “완전 복구까지 몇 시간이 더 걸릴 것”이라며, 복구 속도가 예상보다 느리다고 인정함
  • 원인은 버지니아 북부 데이터센터의 과열 문제였음

    • AWS 설명에 따르면 미국 동부 1 리전 안의 단일 가용 영역에서 문제가 발생함
    • 오전 9시 51분 업데이트에서는 추가 냉각 시스템 용량을 온라인으로 붙여야 남은 하드웨어를 복구할 수 있다고 밝힘
    • 결국 소프트웨어 배포 실수라기보다는, 냉각과 하드웨어 회복이 병목이 된 인프라 장애에 가까움

중요

> AWS는 “단일 가용 영역” 문제라고 설명했지만, 사용자들이 체감한 영향은 훨씬 컸음. 클라우드 장애에서 장애 범위 설명과 실제 서비스 영향은 자주 다르게 보임.

  • 팬듀얼은 스포츠 베팅 앱 접속 자체가 막히는 문제를 겪음

    • 목요일 밤 9시에 “사용자들이 플랫폼에 접근하지 못하는 기술적 문제를 조사 중”이라고 X에 올림
    • 두 시간 뒤에는 더 넓은 AWS 장애와 연결된 문제라고 설명함
    • 이용자들은 앱에 들어가지 못해 베팅을 현금화하지 못했고, 이 때문에 손실을 봤다고 불만을 터뜨림
  • 코인베이스도 핵심 거래 서비스가 장시간 중단됐다고 밝힘

    • 코인베이스는 금요일 X에 “여러 AWS 영역의 실패가 핵심 거래 서비스의 장기 장애를 일으켰다”고 적음
    • 이후 주요 문제는 완전히 해결됐다고 공지함
    • 암호화폐 거래소 장애는 가격 변동성과 바로 엮이기 때문에, 단순 접속 장애보다 훨씬 민감하게 받아들여짐
  • 이번 사건은 AWS 의존도가 얼마나 큰지 다시 보여줌

    • AWS는 클라우드 인프라 시장의 약 3분의 1을 차지함
    • 수백만 개 회사가 AWS 위에서 서비스를 돌리고 있어서, 특정 리전의 물리 장애도 여러 산업에 연쇄적으로 튈 수 있음
    • 특히 거래, 결제, 베팅처럼 실시간 조작이 중요한 서비스는 장애 몇 시간의 비용이 바로 사용자 손실로 이어짐

기술 맥락

  • 이번 장애에서 핵심은 “단일 가용 영역 장애면 괜찮은 거 아냐?”라는 착각이에요. 멀티존 구성을 해도 데이터베이스, 큐, 캐시, 인증, 외부 API 같은 공통 의존성이 한쪽에 묶여 있으면 사용자 입장에서는 서비스 전체가 멈춘 것처럼 보이거든요.

  • AWS가 냉각 시스템 용량을 추가로 붙이고 하드웨어를 복구해야 한다고 한 점도 중요해요. 이건 단순히 인스턴스를 재시작하면 끝나는 문제가 아니라, 물리 인프라 레이어에서 열과 전력, 장비 상태가 복구 경로를 결정했다는 뜻이에요.

  • 코인베이스와 팬듀얼처럼 실시간 거래가 걸린 서비스는 복구 목표가 훨씬 빡세요. 읽기 전용 서비스라면 몇 분 지연도 버틸 수 있지만, 거래 서비스는 접속 불가가 곧 주문 실패, 현금화 실패, 금전 손실 주장으로 이어지기 때문이에요.

  • 그래서 실무에서는 “멀티 AZ를 썼다”보다 “어떤 의존성이 AZ 장애를 따라 같이 죽는가”를 봐야 해요. 장애 훈련, 강제 페일오버 테스트, 리전 단위 대피 전략이 귀찮아도 필요한 이유가 딱 이런 사건에서 드러나요.

클라우드 장애 뉴스에서 늘 반복되는 얘기지만, 이번에도 포인트는 ‘단일 가용 영역’이라는 표현과 실제 서비스 영향 사이의 간극임. 거래, 베팅처럼 실시간성이 돈으로 바로 연결되는 서비스는 멀티존 구성이 있어도 의존성 하나가 걸리면 사용자 입장에선 그냥 전체 장애로 보임.

댓글

댓글

댓글을 불러오는 중...

devops

디지털 스택을 유럽으로 옮겨보니, 생각보다 꽤 실전적이었다

한 개발자가 분석, 메일, 비밀번호 관리, 컴퓨트, 오브젝트 스토리지, 백업, 이메일, 에러 추적, AI API까지 유럽 중심 스택으로 옮긴 경험을 정리한 글이다. 핵심은 반미 감정이 아니라 데이터가 어디에 있고, 누가 접근할 수 있고, 정치나 기업 정책 변화에 얼마나 휘둘리는지를 의식하자는 얘기다.

devops

개인용 컴퓨터 다음은 개인용 클러스터라는 주장

이 글은 AI 시대에 개인 한 명이 쓰는 컴퓨팅 자원이 점점 ‘클러스터 한 덩어리’ 수준으로 커질 거라고 주장한다. PC가 직장, 취미 개발자, 게임 문화로 퍼졌듯이 개인용 클러스터도 업무용 AI, 오픈소스 실험, 게임 같은 흐름을 타고 대중화될 수 있다는 시나리오다.

devops

AI 에이전트 부하에 흔들린 GitHub, 왜 다른 서비스보다 더 아팠나

GitHub가 최근 몇 달 동안 가용성 저하, 검색 장애, GitHub Actions 문제, 심지어 squash merge에서 커밋이 빠지는 데이터 무결성 사고까지 겪었다. GitHub CTO는 AI 에이전트발 부하 증가를 원인으로 들었지만, 실제로는 2년간 약 3.5배 증가한 부하와 Azure 이전, 오래된 시스템, 조직적 지연이 겹친 문제에 가깝다. 개발자 입장에선 GitHub가 ‘없으면 안 되는 도구’에서 ‘업무를 막는 병목’으로 보이기 시작했다는 게 핵심이다.

devops

한국 클라우드 시장, 이제 GPU랑 데이터센터 싸움으로 넘어감

국내 클라우드 서비스 제공사들이 AI 전환 수요를 잡기 위해 GPUaaS, 데이터센터, 공공 클라우드 사업에 공격적으로 투자하고 있어. 네이버클라우드, KT클라우드, NHN클라우드 모두 2026년 1분기 실적에서 AI 인프라를 핵심 성장축으로 내세웠고, 정부의 2조805억원 규모 GPU 구축 사업이 판을 더 키우는 중이야.

devops

칩값 뛰니 K게임의 콘솔·피시 전환 해법으로 다시 뜨는 클라우드 게임

국내 게임사들이 모바일 중심에서 콘솔·피시로 넘어가려는 타이밍에 고성능 지피유와 콘솔 가격 상승이 발목을 잡고 있다. 이용자 입장에서는 300만원대 게이밍 피시, 오른 콘솔 가격, 스팀 가격 기준 개편까지 겹치면서 고사양 게임 접근성이 떨어지는 상황이다. 업계는 원격 서버에서 게임을 실행해 스트리밍하는 클라우드 게임을 다시 현실적인 대안으로 보고 있다.