무슨 일이 일어났나
r/LocalLLaMA에 평생 Windows를 써온 사용자가 [Lubuntu 26.04와 Windows 11을 같은 PC에서 비교한 llama.cpp 벤치마크](https://www.reddit.com/[r/LocalLLaMA](/ko/wiki/localllama/)/comments/1sw2fjc/benchmark_windows_11_vs_lubuntu_2604_on_llamacpp/)를 올렸어. 하드웨어는 RTX 5080 + i9-14900KF로 고정. 평균 추론 속도는 Lubuntu가 128 tok/s, Windows가 108 tok/s. 약 18% 차이고, 본인도 이 정도일 줄은 몰랐다고 적었어.
이후 Vulkan 백엔드까지 추가로 돌려서 결과가 더 두꺼워졌어. CUDA든 Vulkan이든 Linux 쪽이 일관되게 앞섰다는 게 게시자 결론이야.
왜 이게 일어났나
llama.cpp 인퍼런스는 GPU 드라이버, 메모리 매니저, 시스템 콜 오버헤드 영향을 그대로 받아. Windows는 게임용 그래픽 드라이버 스택과 백그라운드 서비스가 같이 도는 환경이라 컨텍스트 스위칭 부담이 더 커. 같은 llama.cpp 바이너리라도 OS 쪽에서 깎이는 자원이 다른 거지.
Startup Fortune이 이를 정리하면서 “double digits 격차”라고 표현했고, 모델별 변동을 합쳐 15-25% 범위로 봤어.
어떤 의미인가
로컬 LLM을 진지하게 돌리는 사람한테 OS 선택은 이제 취향이 아니라 비용이야. 같은 GPU에서 18% 더 짜낸다는 건 추론 한 번에 들어가는 전기와 시간이 그만큼 줄어든다는 뜻이지. 듀얼부팅을 깔아두거나 LLM 서버만 Linux로 분리하는 셋업이 합리적인 선택지로 들어와.
주의할 점
단일 사용자 벤치마크라는 점은 짚고 가야 해. RTX 5080 한 대에 본인 PC 환경의 결과니까 다른 GPU 세대에서 격차가 그대로 나오리란 보장은 없어. 도입 전에 본인 워크로드로 한 번 더 측정하는 게 안전해. 게시자도 “AI를 글 쓰는 데 도움 받았다”고 본문에 적어놨으니, 분석 부분은 참고용으로만 보면 돼.