본문으로 건너뛰기
피드

AWS 미국 동부 리전 장애, 코인베이스와 팬듀얼 거래까지 멈췄다

devops 약 5분
vote
0
댓글
북마크

AWS의 핵심 리전인 미국 동부 1 리전에서 데이터센터 과열 문제가 터지면서 코인베이스와 팬듀얼 같은 서비스가 영향을 받았다. AWS는 단일 가용 영역 문제라고 설명했지만, 복구가 예상보다 느려지면서 핵심 거래 서비스까지 장시간 흔들렸다.

  • 1

    장애 원인은 미국 버지니아 북부의 미국 동부 1 리전 데이터센터 과열 문제였음

  • 2

    AWS는 단일 가용 영역의 냉각 용량과 EC2 인스턴스 장애를 복구 중이라고 밝힘

  • 3

    코인베이스는 여러 AWS 영역 장애로 핵심 거래 서비스가 장시간 중단됐다고 설명함

  • 4

    팬듀얼 이용자들은 접속 불가와 현금화 실패로 손실을 호소함

  • AWS의 미국 동부 1 리전에서 장애가 나면서 코인베이스, 팬듀얼 같은 실시간 거래 서비스가 흔들림

    • AWS는 목요일 저녁 8시 25분 미 동부시간에 처음으로 “인스턴스 장애를 조사 중”이라고 공지함
    • 금요일 오후 3시 29분 업데이트에서는 “완전 복구까지 몇 시간이 더 걸릴 것”이라며, 복구 속도가 예상보다 느리다고 인정함
  • 원인은 버지니아 북부 데이터센터의 과열 문제였음

    • AWS 설명에 따르면 미국 동부 1 리전 안의 단일 가용 영역에서 문제가 발생함
    • 오전 9시 51분 업데이트에서는 추가 냉각 시스템 용량을 온라인으로 붙여야 남은 하드웨어를 복구할 수 있다고 밝힘
    • 결국 소프트웨어 배포 실수라기보다는, 냉각과 하드웨어 회복이 병목이 된 인프라 장애에 가까움

중요

> AWS는 “단일 가용 영역” 문제라고 설명했지만, 사용자들이 체감한 영향은 훨씬 컸음. 클라우드 장애에서 장애 범위 설명과 실제 서비스 영향은 자주 다르게 보임.

  • 팬듀얼은 스포츠 베팅 앱 접속 자체가 막히는 문제를 겪음

    • 목요일 밤 9시에 “사용자들이 플랫폼에 접근하지 못하는 기술적 문제를 조사 중”이라고 X에 올림
    • 두 시간 뒤에는 더 넓은 AWS 장애와 연결된 문제라고 설명함
    • 이용자들은 앱에 들어가지 못해 베팅을 현금화하지 못했고, 이 때문에 손실을 봤다고 불만을 터뜨림
  • 코인베이스도 핵심 거래 서비스가 장시간 중단됐다고 밝힘

    • 코인베이스는 금요일 X에 “여러 AWS 영역의 실패가 핵심 거래 서비스의 장기 장애를 일으켰다”고 적음
    • 이후 주요 문제는 완전히 해결됐다고 공지함
    • 암호화폐 거래소 장애는 가격 변동성과 바로 엮이기 때문에, 단순 접속 장애보다 훨씬 민감하게 받아들여짐
  • 이번 사건은 AWS 의존도가 얼마나 큰지 다시 보여줌

    • AWS는 클라우드 인프라 시장의 약 3분의 1을 차지함
    • 수백만 개 회사가 AWS 위에서 서비스를 돌리고 있어서, 특정 리전의 물리 장애도 여러 산업에 연쇄적으로 튈 수 있음
    • 특히 거래, 결제, 베팅처럼 실시간 조작이 중요한 서비스는 장애 몇 시간의 비용이 바로 사용자 손실로 이어짐

기술 맥락

  • 이번 장애에서 핵심은 “단일 가용 영역 장애면 괜찮은 거 아냐?”라는 착각이에요. 멀티존 구성을 해도 데이터베이스, 큐, 캐시, 인증, 외부 API 같은 공통 의존성이 한쪽에 묶여 있으면 사용자 입장에서는 서비스 전체가 멈춘 것처럼 보이거든요.

  • AWS가 냉각 시스템 용량을 추가로 붙이고 하드웨어를 복구해야 한다고 한 점도 중요해요. 이건 단순히 인스턴스를 재시작하면 끝나는 문제가 아니라, 물리 인프라 레이어에서 열과 전력, 장비 상태가 복구 경로를 결정했다는 뜻이에요.

  • 코인베이스와 팬듀얼처럼 실시간 거래가 걸린 서비스는 복구 목표가 훨씬 빡세요. 읽기 전용 서비스라면 몇 분 지연도 버틸 수 있지만, 거래 서비스는 접속 불가가 곧 주문 실패, 현금화 실패, 금전 손실 주장으로 이어지기 때문이에요.

  • 그래서 실무에서는 “멀티 AZ를 썼다”보다 “어떤 의존성이 AZ 장애를 따라 같이 죽는가”를 봐야 해요. 장애 훈련, 강제 페일오버 테스트, 리전 단위 대피 전략이 귀찮아도 필요한 이유가 딱 이런 사건에서 드러나요.

클라우드 장애 뉴스에서 늘 반복되는 얘기지만, 이번에도 포인트는 ‘단일 가용 영역’이라는 표현과 실제 서비스 영향 사이의 간극임. 거래, 베팅처럼 실시간성이 돈으로 바로 연결되는 서비스는 멀티존 구성이 있어도 의존성 하나가 걸리면 사용자 입장에선 그냥 전체 장애로 보임.

댓글

댓글

댓글을 불러오는 중...

devops

하이퍼스케일 데이터, 비트코인 채굴장을 최대 30억 달러짜리 AI 데이터센터로 전환

하이퍼스케일 데이터의 자회사 ACS가 캘리포니아 네오클라우드 업체와 미시간 캠퍼스 AI 컴퓨팅 용량 공급 계약을 맺었어. 초기 20메가와트로 시작해 최대 52메가와트까지 늘릴 수 있고, 모든 옵션이 행사되면 계약 규모가 30억 달러를 넘을 수 있다는 내용이야.

devops

KT, 분사했던 KT클라우드 다시 합치나…AIDC 투자 때문에 판 다시 짜는 중

KT가 2022년 분사한 KT클라우드를 다시 합치는 방안을 검토 중인 것으로 알려졌어. 클라우드, 인공지능 데이터센터, 네트워크 인프라를 한 몸처럼 묶어 B2B 경쟁력을 키우려는 흐름으로 읽혀. 다만 KT는 아직 구체적으로 검토한 바 없다는 입장이야.

devops

KT, KT클라우드 다시 합치나…AI 인프라 패키지 전략 시동

KT가 2022년 분사했던 KT클라우드를 다시 흡수하는 방안을 검토 중인 것으로 알려졌다. 인공지능 확산으로 클라우드, 데이터센터, 네트워크를 묶은 기업간거래 인프라 수요가 커지면서 KT 본체의 자금력과 영업력을 활용하려는 전략으로 보인다. 다만 외부 투자자 지분 처리와 통신·클라우드 조직 통합이 실제 관건이다.

devops

Bunny DNS, 쿼리 과금 없애고 500개 도메인까지 무료로 푼다

bunny.net이 Bunny DNS의 DNS 쿼리 과금을 없애고 계정당 최대 500개 도메인까지 무료 DNS 호스팅을 제공하기로 했어. 단순한 무료화가 아니라 CDN, 엣지 보안, 스마트 라우팅을 DNS에서 바로 연결하는 방향으로 플랫폼 진입점을 재정리하는 움직임이야.

devops

가비아, AWS 중소·중견기업 클라우드 역량 인증 받음

가비아가 AWS의 ‘AWS SMB 컴피턴시’를 취득했다. 이 인증은 중소·중견기업의 클라우드 전환과 운영 지원 역량을 검증하는 제도로, 가비아는 운영 프레임워크와 고객 레퍼런스를 인정받았다.