무슨 일이 일어났나
vLLM 사용자가 r/LocalLLaMA에 AMD Radeon Pro R9700(RDNA4/gfx1201)에서 AITER Unified Attention을 켰더니 FlashAttention과 5% 이내 성능이 나왔다고 보고했어. vLLM 환경변수 한 줄로 활성화되고, FP8 WMMA 명령어를 써서 prefill·decode 양쪽이 가속돼.
핵심 수치는 Llama-3-8B FP8 batch=8 기준 AMD R9700 142 tok/s, RTX 4080 148 tok/s. 95.9% 수준이야.
왜 이게 일어났나
지금까지 AMD GPU로 vLLM 인퍼런스는 ROCm-FlashAttention 포팅 속도가 NVIDIA의 60-80% 수준이라 가격 메리트를 깎아먹고 있었어. AITER(AMD Inference Tensor Engine for ROCm)는 ROCm 6.3부터 들어간 라이브러리고, 이번 Unified Attention은 prefill/decode를 한 커널로 묶어서 메모리 대역폭 손실을 줄였어.
vLLM PR #14872가 gfx1201 패치를 머지 직전 상태야. 머지되면 R9700, RX 9070 XT 사용자가 fork 없이 메인 빌드로 쓸 수 있어.
어떤 의미인가
24GB VRAM AMD 카드 옵션이 다시 살아난 거야. AMD R9700이 워크스테이션 카드라 RTX 4090과 가격이 비슷하긴 한데, 데이터센터 도입 시 라이선스나 PCIe 슬롯 호환성을 보면 옵션이 한 개 더 생긴 셈이야.
다만 ROCm 6.4 RC 의존이라 안정 버전 깔린 사내 서버에선 바로 못 써. Mixtral, DeepSeek MoE 같은 모델은 Unified Attention이 아직 검증 안 됐고, vLLM 패치도 머지 전이라 1-2달 정도 지켜본 후 도입 결정하는 게 안전해.
다음 수순
vLLM PR #14872가 머지되면 메인라인 nightly로 사용 가능해져. 그 전까지는 fork 빌드를 깔아 PoC만 돌려보는 게 합리적이야. 사내 GPU 비용 모델링 다시 짤 거면 R9700이 RTX 4090 대비 95% 성능에 가격은 비슷하므로, 다중 카드 노드에서는 PCIe 채널 분배가 더 중요한 변수가 돼.