무슨 일이 일어났나

Luce-Org가 lucebox-hub로 DFlash 포팅을 공개했어. DFlash는 작은 드래프트 모델이 후보를 먼저 내고 큰 베이스 모델이 묶어서 확인하는 추측 디코딩이야. 이번 포팅은 GGUF(로컬 llama.cpp 형식)에 맞췄고, 베이스는 Q4_K_M(4비트 양자화) Qwen3.5-27B, 드래프트는 z-lab의 GGUF BF16(16비트 부동소수점) 모델이야. RTX 3090 기준 AR(기본 추론) 38 tok/s에서 207 tok/s, 5.46배로 올라갔어.

왜 이게 일어났나

기존 DFlashGGUF 모델 파일을 바로 읽는 공개 실행 경로가 아니었어. Luce-Org는 llama.cpp 형식에 맞게 ggml 위에 C++/CUDA 실행 코드를 새로 짜고, DDTree(후보를 트리처럼 묶어 검증하는 방식)도 같이 옮겼다고 설명했어.

어떤 의미인가

판단 기준은 좁게 잡아야 해. 혼자 로컬에서 코드 한 요청을 빠르게 확인하는 흐름이면 시도할 만하지만, API 뒤에서 여러 요청을 동시에 처리하거나 답변이 바뀌면 안 되는 서비스라면 자기 프롬프트와 테스트셋으로 속도·품질을 다시 재야 해.

다음 수순

셀프호스트 후보라면 리포지토리 스크립트로 자기 모델·프롬프트 속도와 정확도를 다시 재고, 간단한 부하 테스트로 동시에 몇 요청까지 버티는지 확인하면 돼.