이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

BeeLlama v0.2.0, RTX 3090 한 장으로 Qwen 3.6 27B를 164 tok/s로 돌려

llama.cpp 포크인 BeeLlama가 5월 22일 v0.2.0을 공개했어. DFlash 추측 디코딩으로 RTX 3090 한 장에서 Qwen 3.6 27B는 164 tok/s(4.40배), Gemma 4 31B는 177.8 tok/s(4.93배)까지 끌어올렸어. KV 캐시 압축까지 합쳐 같은 VRAM에 7.5배 더 담아.

무슨 일이 일어났나

BeeLlama v0.2.0이 5월 22일 공개됐어. llama.cpp 포크인데 DFlash 추측 디코딩과 TurboQuant KV 캐시 압축을 같이 넣어서, RTX 3090 한 장 환경에서 Qwen 3.6 27B는 164 tok/s, Gemma 4 31B는 177.8 tok/s까지 올라가. 기존 baseline 대비 각각 4.40배, 4.93배 가속이야. KV 캐시도 같은 VRAM에서 7.5배 더 담을 수 있어. 저장소는 MIT 라이선스에 462 stars, 24 forks 규모야.

어떻게 작동하나

DFlash는 target 모델 옆에 작은 draft 모델을 붙여서, draft가 토큰을 여러 개 미리 만들고 target이 한 번에 검증하는 방식이야. 검증이 통과되면 한 번의 forward pass에서 여러 토큰이 동시에 확정돼. quickstart 문서를 보면 Qwen 3.6 27B는 Q5_K_S target에 Q4_K_M DFlash draft를 짝지웠고, Gemma 4 31B는 Q4_K_S에 Q5_K_M draft를 붙였어. 여기에 TurboQuant이 KV 캐시를 압축해서 같은 VRAM으로 더 긴 컨텍스트를 잡을 수 있게 해.

어떤 의미인가

지금까지 27B~31B급 모델을 단일 GPU에서 100 tok/s 넘게 돌리려면 클라우드 인스턴스나 멀티 GPU 셋업이 필요했어. RTX 3090은 중고로 1백만 원 안쪽에 구할 수 있는 카드인데, 그 한 장으로 160 tok/s대를 본다는 건 로컬 추론의 비용 계산이 다시 바뀐다는 뜻이야. 자체 호스팅을 검토하는 1인 개발팀이나 소규모 회사에서 DFlash quickstart 문서대로 따라가면 한나절 안에 같은 셋업을 재현할 수 있어.

주의해서 볼 점

벤치마크에서 강했던 task store, KV report 같은 워크로드는 코드·JSON 생성 계열이야. Multi-turn coding 벤치마크에서는 1.94배까지 떨어져. 자유로운 대화나 긴 산문 생성에서는 가속이 더 줄어들 가능성이 커. 그리고 가속은 토큰 생성 구간에만 적용되고 prompt 처리는 baseline 수준이라, 긴 프롬프트를 자주 넣는 워크플로에서는 체감이 약해. 저장소 자체가 experimental fork를 표방하고 있어서, 프로덕션 채택 전엔 자기 워크로드로 한 번 더 측정하는 게 안전해.

태그

#llama-cpp#beellama#dflash#speculative-decoding#qwen#local-llm

포맷 v3 가이드 news 3.4.0

팩트 체크

통과 · 2026-05-24 KST

검증 생성: AI + 편집 검토 · 2026-05-24 상태: 통과

통과 원문 대조

GitHub 저장소와 quickstart 문서의 수치가 본문 수치와 일치해.

GitHub 저장소 description에 'up to 3x faster generation and 7.5x more KV cache in same VRAM'이 그대로 적혀 있어.
Qwen 3.6 27B task store 벤치마크에서 4.40x, 163.9 tok/s가 README 표에 들어 있어.
Gemma 4 31B의 4.93x 가속과 177.8 tok/s 수치는 quickstart 문서에 직접 나와.

통과 교차 검증 검증 출처 2

AI Weekly와 GitHub 본 저장소가 같은 수치를 같은 방향으로 인용해.

1차 출처 교차검증: GitHub 저장소 README/릴리스 노트와 AI Weekly 보도가 4.40x, 164 tok/s 수치를 동일하게 인용해.
DFlash가 코드·JSON처럼 구조적 출력에서 강하다는 한계도 두 출처 모두 같은 방향으로 적었어.
프롬프트 처리 속도는 거의 baseline 그대로라는 caveat가 GitHub 본문에도 들어 있어.

통과 수치 검증

164 tok/s, 100 tok/s, 160 tok/s, 4.40배, 4.93배, 1.94배, 177.8 tok/s, 7.5배 KV 수치는 모두 README와 quickstart에서 확인했어.

164 tok/s, 4.40배 가속(Qwen 3.6 27B), 177.8 tok/s, 4.93배 가속(Gemma 4 31B) — README 표 그대로야.
Multi-turn coding 워크로드 1.94배 가속, 64.6 tok/s는 README 표에서 직접 본 수치야.
본문에 쓴 '100 tok/s 넘게', '160 tok/s대'는 README 수치 164 tok/s에 기반한 표현이야.
7.5배 KV 캐시 압축은 GitHub 저장소 description 'up to 7.5x more KV cache'에서 가져왔어.
GitHub 462 stars, 24 forks — README 헤더에 그대로 표시돼.
MIT 라이선스 — repository LICENSE 파일이야.

통과 비판 검토

워크로드 종속성, 프롬프트 처리 한계, 실험 단계라는 점을 본문에 같이 적었어.

Causal evidence: 추측 디코딩에서 draft 모델이 토큰을 미리 만들고 target이 한 번에 검증해야 가속이 나오는 인과 관계가 README의 DFlash 설명에 직접 적혀 있어.
Mechanism evidence: target 모델의 hidden state를 ring buffer에 캡처하고 draft 모델이 cross-attend해서 토큰을 제안하는 구조는 quickstart 문서가 그대로 설명해.
수치가 가장 좋은 워크로드(코드 생성)만 강조될 위험이 있어.
fork 자체가 'experimental'을 표방하고 있어 프로덕션 채택에는 별도 검증이 필요해.

Multi-turn coding 워크로드에서는 1.94배로 떨어진다는 점도 같이 봐야 해.

출처: Anbeeld/beellama.cpp — GitHub repository , Qwen 3.6 DFlash quickstart 문서 , AI Weekly — BeeLlama DFlash hits nearly 5x token speed on RTX 3090