무슨 일이 일어났나
BeeLlama v0.2.0이 5월 22일 공개됐어. llama.cpp 포크인데 DFlash 추측 디코딩과 TurboQuant KV 캐시 압축을 같이 넣어서, RTX 3090 한 장 환경에서 Qwen 3.6 27B는 164 tok/s, Gemma 4 31B는 177.8 tok/s까지 올라가. 기존 baseline 대비 각각 4.40배, 4.93배 가속이야. KV 캐시도 같은 VRAM에서 7.5배 더 담을 수 있어. 저장소는 MIT 라이선스에 462 stars, 24 forks 규모야.
어떻게 작동하나
DFlash는 target 모델 옆에 작은 draft 모델을 붙여서, draft가 토큰을 여러 개 미리 만들고 target이 한 번에 검증하는 방식이야. 검증이 통과되면 한 번의 forward pass에서 여러 토큰이 동시에 확정돼. quickstart 문서를 보면 Qwen 3.6 27B는 Q5_K_S target에 Q4_K_M DFlash draft를 짝지웠고, Gemma 4 31B는 Q4_K_S에 Q5_K_M draft를 붙였어. 여기에 TurboQuant이 KV 캐시를 압축해서 같은 VRAM으로 더 긴 컨텍스트를 잡을 수 있게 해.
어떤 의미인가
지금까지 27B~31B급 모델을 단일 GPU에서 100 tok/s 넘게 돌리려면 클라우드 인스턴스나 멀티 GPU 셋업이 필요했어. RTX 3090은 중고로 1백만 원 안쪽에 구할 수 있는 카드인데, 그 한 장으로 160 tok/s대를 본다는 건 로컬 추론의 비용 계산이 다시 바뀐다는 뜻이야. 자체 호스팅을 검토하는 1인 개발팀이나 소규모 회사에서 DFlash quickstart 문서대로 따라가면 한나절 안에 같은 셋업을 재현할 수 있어.
주의해서 볼 점
벤치마크에서 강했던 task store, KV report 같은 워크로드는 코드·JSON 생성 계열이야. Multi-turn coding 벤치마크에서는 1.94배까지 떨어져. 자유로운 대화나 긴 산문 생성에서는 가속이 더 줄어들 가능성이 커. 그리고 가속은 토큰 생성 구간에만 적용되고 prompt 처리는 baseline 수준이라, 긴 프롬프트를 자주 넣는 워크플로에서는 체감이 약해. 저장소 자체가 experimental fork를 표방하고 있어서, 프로덕션 채택 전엔 자기 워크로드로 한 번 더 측정하는 게 안전해.