본문으로 건너뛰기
0
r/jeffnews HN 약 4분

Arm, 35년 만에 첫 자체 실리콘 제품 'AGI CPU' 발표

backend

요약

Arm이 35년 역사상 처음으로 자체 설계 실리콘 제품인 AGI CPU를 발표함. Neoverse V3 기반 AI 데이터센터용 프로세서로, Meta가 리드 파트너이며 랙당 x86 대비 2배 이상 성능을 주장함.

기사 전체 정리

Arm, 35년 만에 첫 자체 실리콘 제품 'AGI CPU' 발표

  • Arm이 IP 라이선싱만 하던 회사에서 처음으로 직접 설계한 실리콘 제품을 내놓음. 이름은 Arm AGI CPU이고, AI 데이터센터용 프로덕션 레디 칩임
  • Arm Neoverse V3 플랫폼 기반으로 만들어졌고, 에이전틱 AI 인프라(연속적이고 분산된 워크로드)를 타겟으로 함
  • 에이전틱 AI 시대에는 CPU가 분산 AI 시스템의 페이싱 요소가 됨. 가속기 조율, 메모리 관리, 워크로드 스케줄링, 에이전트 간 팬아웃 조정 등을 CPU가 담당하게 되는 거임

스펙과 성능

  • 레퍼런스 서버: 1OU 2노드 설계, 블레이드당 272코어. 표준 공랭 36kW 랙에 30블레이드 = 총 8,160코어
  • Supermicro 수냉 구성: 200kW 설계, 336개 AGI CPU 탑재, 45,000코어 이상
  • x86 대비 2배 이상 랙당 성능을 주장함
  • 핵심 장점은 클래스 최고 수준의 메모리 대역폭이라는 거임. x86 CPU는 지속 부하에서 코어 경합으로 성능이 저하되는데, Arm은 유효 실행 스레드가 더 많음
  • 고성능 단일 스레드 Neoverse V3 코어가 레거시 아키텍처를 능가한다고 함. 사용 가능한 스레드가 더 많고, 스레드당 작업량도 더 많으니 랙 단위에서 복합 성능 이득이 발생함

파트너 생태계

  • 리드 파트너는 Meta. 기가와트급 인프라 최적화와 자체 MTIA 가속기와의 연동을 위해 공동 개발함
  • OpenAI의 Sachin Katti(산업 컴퓨팅 총괄): "대규모 AI 워크로드 조율 레이어에서 중요한 역할을 할 것"이라고 함
  • 그 외 런치 파트너: Cerebras, Cloudflare, F5, Positron, Rebellions, SAP, SK Telecom
  • SK텔레콤은 Rebellions AI 가속기 칩과 함께 Arm AGI CPU를 활용한 대규모 풀스택 AI 추론 데이터센터 인프라를 확장한다는 거임
  • 상용 시스템은 ASRockRack, Lenovo, Supermicro에서 지금 바로 주문 가능

오픈 생태계 전략

  • OCP(Open Compute Project) DC-MHS 표준 폼팩터의 1OU 듀얼 노드 레퍼런스 서버를 공개함
  • 레퍼런스 서버 설계와 펌웨어를 OCP에 기여할 예정이고, 시스템 아키텍처 스펙, 디버그 프레임워크, 검증 도구도 함께 공개함
  • 후속 제품도 이미 커밋된 상태이고, 기존 Neoverse CSS 제품 로드맵과 병행해서 소프트웨어 호환성을 유지한다는 방침임
  • 50개 이상 기업이 Arm 컴퓨트 플랫폼의 실리콘 확장을 지원하고 있음

핵심 포인트

  • Arm 최초의 자체 실리콘 제품으로 IP 라이선싱을 넘어선 전략적 전환
  • 1OU 2노드 설계 기준 블레이드당 272코어, 랙당 8,160코어, Supermicro 수냉 구성 시 45,000코어 이상
  • x86 대비 랙당 2배 이상 성능 주장, 클래스 최고 메모리 대역폭이 핵심 장점
  • Meta가 리드 파트너로 MTIA 가속기 연동 공동 개발, OpenAI/Cerebras/Cloudflare 등 참여
  • OCP 레퍼런스 서버 설계 기여 예정, ASRockRack/Lenovo/Supermicro에서 즉시 주문 가능

인사이트

Arm이 IP 라이선싱 모델에서 직접 실리콘 판매로 확장하는 건 비즈니스 모델의 근본적 변화임. AI 데이터센터 CPU 시장에서 x86과의 직접 경쟁이 본격화되는 신호.

댓글

댓글

댓글을 불러오는 중...

backend

Quadratic Micropass Type Inference — 타입 추론 에러 메시지를 인간 사고방식에 맞추는 새로운 알고리즘

코드 순서가 아니라 사용자가 중요시하는 순서로 타입 추론을 수행하는 새 알고리즘 제안. 여러 마이크로패스를 우선순위 순으로 실행해서 에러 메시지가 개발자 직관에 부합하도록 함.

backend

Redis 8.0 출시 — I/O 스레딩 갈아엎고 처리량 3배, 2.1M ops/sec 달성

Redis 8.0이 I/O 스레딩 모델을 완전히 재설계해서 16코어 기준 2.1M ops/sec를 달성함 (7.4 대비 3배). Hash field expiration, Vector search HNSW, Client-side caching v2, Redis Functions 2.0 async 실행 등 굵직한 기능이 추가되고, jemalloc 통합으로 메모리 fragmentation도 25% 줄어듦.

backend

Go 1.26의 타입 생성(Type Construction)과 순환 감지(Cycle Detection) 개선

Go 1.26에서 타입 체커의 타입 생성 알고리즘을 개선해 재귀 타입과 배열 크기 계산 시 발생하던 순환 감지 문제를 체계적으로 해결했다. 불완전한 값이 다운스트림으로 퍼지기 전에 업스트림에서 차단하는 새로운 접근법으로 여러 컴파일러 패닉을 수정.

backend

Cloudflare Gen 13 서버: 캐시를 코어로 바꿔 성능 2배 달성한 이야기

Cloudflare가 AMD Turin 9965(192코어) 기반 Gen 13 서버를 배포함. 코어당 L3 캐시가 6배 줄어 레거시 NGINX 스택(FL1)으로는 레이턴시 50% 악화가 불가피했으나, Rust로 전면 재작성한 FL2로 전환해 Gen 12 대비 처리량 2배, 성능/와트 50% 개선을 달성함.

backend

칩셋 레이턴시를 측정해봤더니 — 쓸모는 없지만 재밌는 실험

Vulkan GPU 벤치마크로 여러 세대 마더보드 칩셋의 PCIe 레이턴시를 측정한 실험. CPU 직결 대비 칩셋 경유 시 수백 ns 레이턴시가 추가되며, 의외로 2012년 Skylake Z170이 가장 낮은 추가 레이턴시를 보임.