무슨 일이 일어났나
단일 사용자 실험 보고야. 작성자가 RTX 5080 16GB 한 장으로 Qwen3.6-35B-A3B 모델을 돌리면서, 128K 컨텍스트가 거의 다 찰 때까지 30 t/s 속도를 유지했다고 보고했어. 컨텍스트가 비어 있을 때는 89 t/s까지 나왔고.
왜 가능한가
핵심은 A3B 구조야. 35B 파라미터 모델인데도 매 토큰마다 활성화되는 파라미터는 3B 수준이거든. Mixture of Experts 구조라서 메모리 풋프린트는 35B에 맞춰져 있지만, 실제 연산량은 3B 모델 수준이라는 게 포인트야. 16GB VRAM에서도 양자화를 잘 맞추면 충분히 들어가는 이유가 여기 있어.
어떤 의미인가
코딩 에이전트를 호스팅 모델에서 로컬로 옮기려는 시도가 늘어나는 흐름이야. 작성자도 글에서 Anthropic의 4월 23일 포스트모템을 언급했어. 호스팅 서비스의 품질 회귀를 겪은 사용자가 로컬 대안을 찾는 거지. 16GB 소비자 GPU에서 128K 컨텍스트 코딩이 실용적 속도로 가능하다는 건, 작년만 해도 RTX 4090 24GB가 최소 사양처럼 여겨졌던 걸 생각하면 의미 있는 이정표야.
주의할 점
벤치마크는 단일 사용자 셋업이고, 30 t/s는 컨텍스트 거의 가득 찼을 때 수치야. 짧은 컨텍스트일 때 89 t/s 나오던 게 절반 이하로 떨어진다는 뜻이기도 해. 호스팅 모델만큼의 응답 품질을 기대하면 실망할 수 있어. 일단 자기 워크플로우에 붙여보고 판단하는 게 맞아.