로컬에서 LLM 돌리는 사람들 중 윈도우 사용자는 대부분 WSL을 거쳐서 vLLM을 돌려왔거든. 그게 좀 번거로워서 많이들 DockerLinux 듀얼부팅으로 갔는데, 이번에 GitHubdevnen/qwen3.6-windows-server가 올라오면서 윈도우 네이티브 vLLM이 가능해졌어. 5월 2일 r/LocalLLaMA에 올라온 속도 측정 보고서는 278 좋아요, 142 댓글로 빠르게 화제가 됐고.

수치만 보면 — RTX 3090 한 대(VRAM 24GB) + Windows 10 + vLLM 네이티브 조합으로 짧은 프롬프트 72 tok/s, 25,000 토큰 길이의 긴 프롬프트도 64.5 tok/s. 컨텍스트를 127,000 토큰까지 밀어넣어도 53.4 tok/s가 유지돼. 비교 기준은 같은 하드웨어 위에서 WSL을 거치는 일반적인 setup인데, 그쪽보다 약간 빠르거나 비슷한 수준이야.

기술적으로 짚을 부분은 “원래 vLLM윈도우를 공식 지원하지 않았는데” 어떻게 우회했냐인데. devnen 레포는 vLLMGPU 커널 호출 부분을 윈도우 빌드로 다시 컴파일하고, 의존성 패키지(특히 flash-attention 계열)를 윈도우용 wheel로 묶어둔 형태야. 사용자 입장에선 GitHub clone하고 README 따라가면 끝이고, WSL이나 Docker 설치 없이 바로 돌아가.

같은 r/LocalLLaMA 스레드들에서는 5월 2일 즈음에 RTX 5080 16GB로 Qwen3.6 양자화 모델 + 64GB RAM 조합 토론도 동시에 올라왔어. 즉 “어떤 하드웨어로 Qwen3.6을 어떻게 돌릴지” 자체가 5월 첫째 주 LocalLLaMA의 핵심 주제였던 셈이야.

다만 한계는 분명해. 첫째, 이건 한 사람의 측정 결과라 환경이 다르면 결과도 다를 수 있어. 둘째, vLLM 윈도우 네이티브 빌드는 비공식 커뮤니티 패치라서 vLLM 공식 업데이트가 들어올 때마다 재빌드가 필요해. 그래도 “Windows 사용자가 WSL/Docker 없이 vLLM 시작할 수 있는 진입점이 생겼다”는 점은 로컬 LLM 보급에 의미 있는 변화야.

💬 비판적 시각

  • 벤치마크가 한 사람의 RTX 3090 머신 결과 — 다른 환경에서는 다를 수 있어.
  • vLLM 윈도우 네이티브 빌드는 비공식 커뮤니티 패치라 vLLM 공식 업데이트마다 재빌드가 필요해.