본문으로 건너뛰기
피드

Go-Highway: Go에서 SIMD 한 번 짜면 AVX2, AVX-512, NEON 다 돌아감

backend 약 5분
vote
0
댓글
북마크

Google Highway C++ 라이브러리에서 영감을 받은 Go용 포터블 SIMD 추상화 라이브러리. 코드 한 벌로 AVX2, AVX-512, ARM NEON, 순수 Go 폴백까지 지원하며, ARM64 벌크 어셈블리 모드에서 GELU F32 기준 117배 성능 향상을 달성함.

  • 1

    Go 1.26+ GOEXPERIMENT=simd 활용, AMD64는 네이티브 archsimd, ARM64는 GoAT 어셈블리

  • 2

    ML용 contrib 패키지 포함: matmul, activation, nn, loss, gguf 등

  • 3

    ARM64 neon:asm 벌크 모드에서 GELU F32 117배, F64 68배 속도 향상

  • 4

    SME(Apple M4+) 전용 행렬곱 하드웨어 지원

  • Google의 C++ Highway 라이브러리에서 영감을 받은 Go용 포터블 SIMD 추상화 라이브러리가 공개됨. 핵심은 코드 한 벌로 AVX2, AVX-512, ARM NEON, 순수 Go 폴백까지 전부 커버한다는 거임

  • Go 1.26+의 GOEXPERIMENT=simd를 활용해서 AMD64에서는 네이티브 simd/archsimd 패키지를 직접 쓰고, ARM64에서는 GoAT(C→Go 어셈블리 트랜스파일러)로 생성한 어셈블리를 사용하는 구조임. ARM64 쪽은 simd/archsimd가 아직 NEON/SVE를 지원 안 해서 이렇게 우회하는 거임

지원하는 연산이 꽤 빵빵함

  • 기본 SIMD 연산은 하드웨어 명령어에 직접 매핑됨: Load/Store, 산술(Add, Sub, Mul, FMA 등), 비교, 조건부, 비트 연산, 셔플, 타입 캐스트, 리덕션 등 웬만한 건 다 있음
  • LoadSlice/StoreSlice는 안전한(bounds checking) 변형이고, Load/Store는 성능 크리티컬한 내부 루프용으로 bounds checking을 건너뜀. 호출자가 길이 보장해야 함

contrib 패키지가 진짜 핵심

  • hwy/contrib/algo에 Exp, Log, Sin, Cos, Tanh, Sigmoid, Erf 같은 수학 함수 변환이 전부 들어있음. float32, float64, Float16, BFloat16 다 지원하고 ~4 ULP 정확도임
  • ML 관련 패키지도 쏠쏠함: matmul(SME/NEON 가속 행렬곱), matvec, activation(활성화 함수), nn(신경망 프리미티브), loss, rabitq(벡터 양자화), sort(SIMD 가속 정렬) 등
  • 심지어 gguf 파일 포맷 지원까지 있어서 LLM 추론 파이프라인에서 바로 쓸 수 있겠다는 느낌임

성능: ARM64 벌크 어셈블리 모드가 117배 빠름

  • hwygen이라는 코드 생성기가 제네릭 구현에서 타겟별 최적화 코드를 자동 생성해줌
  • ARM64에서 neon:asm 모드를 쓰면 GoAT로 C→Go 어셈블리 트랜스파일을 하는데, 이러면 벡터 단위 함수 호출 오버헤드가 사라짐

중요

> Apple M4 Max 기준 1024개 엘리먼트 벤치마크: GELU F32가 Per-Vector 모드 67,581ns → 벌크 어셈블리 모드 577ns로 117배 속도 향상. F64도 68배 빠름.

  • 단, 어셈블리 모드는 matmul이나 element-wise 같은 연산에 적합하고, softmax처럼 복잡한 제어 흐름이나 리덕션이 있으면 기본 GoSimd 모드가 나음

지원 아키텍처

  • AMD64: AVX2(256비트), AVX-512(512비트) — Go 1.26 네이티브

  • ARM64: NEON(128비트), SVE Darwin(512비트 고정), SVE Linux(스케일러블), SME(스케일러블, 행렬 연산) — GoAT 어셈블리

  • Pure Go 스칼라 폴백도 항상 있음

  • SME는 Apple Silicon M4 이상에서 전용 행렬곱 하드웨어를 활용하는 거임

  • 라이센스는 Apache 2.0. Go에서 SIMD 성능이 필요했던 사람이라면 꽤 진지하게 볼 만한 프로젝트임

Go 생태계에서 SIMD가 본격적으로 쓸 만해지는 신호. 특히 ML 추론 파이프라인에서 cgo 없이 순수 Go로 SIMD 성능을 뽑을 수 있다는 게 매력적임.

댓글

댓글

댓글을 불러오는 중...

backend

Go에서 Rust로 옮길 때 진짜로 바뀌는 것들

이 글은 Go 백엔드 서비스를 Rust로 옮길 때 속도보다 컴파일 타임 보장, 런타임 트레이드오프, 개발자 경험이 더 중요하다고 설명한다. nil 패닉, 데이터 레이스, 에러 처리, 제네릭, 비동기 모델, 마이그레이션 전략까지 실무 관점에서 Go와 Rust를 길게 비교한다.

backend

Python 3.15에서 헤드라인은 못 탔지만 꽤 쓸만한 기능들

Python 3.15에는 lazy imports나 Tachyon profiler 같은 큰 기능 말고도 실무에서 바로 체감될 만한 작은 개선들이 들어가. TaskGroup 취소, 컨텍스트 매니저 데코레이터 개선, 스레드 안전 이터레이터처럼 평소 애매하게 불편했던 지점들이 꽤 깔끔해졌어.

backend

심평원, DUR부터 의료영상 심사까지 클라우드로 갈아엎는다

심평원이 정보시스템 클라우드 전환과 함께 병·의원 업무에 직접 닿는 DUR, 의료영상 AI 심사, 요양급여내역 조회 시스템을 고도화한다. 핵심은 설치형 프로그램 중심이던 연계를 웹과 API 기반으로 넓히고, 진료·청구 과정에서 실시간 확인과 자동 판독을 강화하는 쪽이다.

backend

윈도우 에러 코드 7번 ‘ERROR_ARENA_TRASHED’는 어디서 왔을까

ERROR_ARENA_TRASHED는 Win32에서 실제로 쓰이는 현대적 에러라기보다 MS-DOS 시절 메모리 관리 구조에서 넘어온 잔재야. MS-DOS가 메모리 블록 앞의 arena 시그니처를 훑다가 예상한 값이 아니면 ‘arena가 망가졌다’고 보고 이 에러를 냈다는 이야기야.

backend

C/C++ 컴파일러의 느슨한 메모리 동시성 버그를 자동으로 잡는 박사논문

C와 C++ 컴파일러에서 relaxed memory 동시성 버그를 찾는 자동 테스트 프레임워크를 다룬 박사논문이 공개됐어. Téléchat, Atomic-mixer 같은 도구로 소스 수준 동작과 컴파일된 프로그램 동작을 비교하고, LLVM과 GCC 툴체인에서 실제 버그를 찾아낸 내용이 핵심이야.