이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

Luce DFlash, Qwen3.5-27B를 RTX 3090에서 5.46배 가속한 GGUF 포팅 공개

Luce-Org가 DFlash를 llama.cpp용 GGUF 포팅으로 공개했어. 작은 드래프트 모델이 후보 토큰을 먼저 내고 큰 베이스 모델이 묶어서 검증해, RTX 3090 한 장에서 Qwen3.5-27B 기준 38→207 tok/s, 5.46배 처리량을 기록했어. 로컬 실행 쪽에서도 이 방식을 시험할 수 있게 된 사례야.

무슨 일이 일어났나

Luce-Org가 lucebox-hub로 DFlash 포팅을 공개했어. DFlash는 작은 드래프트 모델이 후보를 먼저 내고 큰 베이스 모델이 묶어서 확인하는 추측 디코딩이야. 이번 포팅은 GGUF(로컬 llama.cpp 형식)에 맞췄고, 베이스는 Q4_K_M(4비트 양자화) Qwen3.5-27B, 드래프트는 z-lab의 GGUF BF16(16비트 부동소수점) 모델이야. RTX 3090 기준 AR(기본 추론) 38 tok/s에서 207 tok/s, 5.46배로 올라갔어.

왜 이게 일어났나

기존 DFlash는 GGUF 모델 파일을 바로 읽는 공개 실행 경로가 아니었어. Luce-Org는 llama.cpp 형식에 맞게 ggml 위에 C++/CUDA 실행 코드를 새로 짜고, DDTree(후보를 트리처럼 묶어 검증하는 방식)도 같이 옮겼다고 설명했어.

어떤 의미인가

판단 기준은 좁게 잡아야 해. 혼자 로컬에서 코드 한 요청을 빠르게 확인하는 흐름이면 시도할 만하지만, API 뒤에서 여러 요청을 동시에 처리하거나 답변이 바뀌면 안 되는 서비스라면 자기 프롬프트와 테스트셋으로 속도·품질을 다시 재야 해.

다음 수순

셀프호스트 후보라면 리포지토리 스크립트로 자기 모델·프롬프트 속도와 정확도를 다시 재고, 간단한 부하 테스트로 동시에 몇 요청까지 버티는지 확인하면 돼.

태그

#llm#qwen#gguf#speculative-decoding#local-llm

포맷 v2 가이드 news 3.1.2

팩트 체크

통과 · 2026-04-28 KST

검증 생성: AI + 편집 검토 · 2026-04-28 상태: 통과

통과 원문 대조

GitHub README에서 포팅 대상, 모델 조합, 실행 조건을 직접 확인했어.

llama.cpp HEAD + DFlash patch를 전제로 한 GGUF 포팅
베이스 모델은 Qwen3.5-27B Q4_K_M, 드래프트 모델은 z-lab/Qwen3.5-27B-DFlash BF16
테스트 환경은 RTX 3090 24GB VRAM

통과 교차 검증 검증 출처 3

GitHub README와 DFlash·DDTree 논문을 대조해 알고리즘 설명 범위를 맞췄어.

DFlash 원논문은 작은 모델이 후보 토큰 묶음을 먼저 만들고 큰 모델이 검증하는 구조를 설명
DDTree 논문은 트리형 후보 검증 구조를 설명
GitHub README의 포팅 설명이 두 논문의 범위를 벗어나지 않음

통과 수치 검증

README의 단일 RTX 3090 처리량을 직접 계산으로 재확인했어.

측정 모델은 Qwen3.5-27B Q4_K_M으로 한정
AR 베이스라인은 38 tok/s
DFlash 적용 후 207 tok/s로 207 ÷ 38 = 5.46배

통과 비판 검토

공개 수치의 적용 범위를 단일 3090 벤치로 제한해서 적었어.

수치는 단일 RTX 3090 24GB, 단일 사용자 조건
다른 GPU나 동시성 규모에 대한 공식 sweep 수치는 없음
추측 디코딩 특성상 코드 생성 워크로드는 회귀 테스트 재확인이 필요

공개 벤치는 Luce-Org README 중심이라 독립 재현 표본이 더 필요
속도 개선 수치가 다른 프롬프트 분포에서도 유지되는지는 추가 검증이 필요

출처: GitHub — Luce-Org/lucebox-hub (DFlash GGUF port) , arXiv — DFlash: Block Diffusion for Flash Speculative Decoding , arXiv — Accelerating Speculative Decoding with Block Diffusion Draft Trees