이 용어는 어디까지 신뢰할 수 있나요?

실무에서 llama.cpp는 모델 파일과 앱 사이의 실행층을 맡아. 예를 들어 llama-cli -m model.gguf로 로컬 파일을 바로 테스트하고, llama-server -hf ggml-org/gemma-3-1b-it-GGUF처럼 Hugging Face 모델을 받아 OpenAI 호환 API 서버로 띄울 수 있어. 서버 쪽은 기본 예시에서 127.0.0.1:8080으로 뜨고, 앱은 이 주소를 새 base_url처럼 부를 수 있어.

이 도구가 자주 보이는 이유는 직접 조정할 수 있는 손잡이가 많기 때문이야. 1.5비트부터 8비트까지의 정수 양자화, CUDA·Metal·Vulkan·SYCL 같은 백엔드, CPU+GPU 혼합 실행, prompt cache, draft model을 쓰는 추측 디코딩까지 한 층에서 다룬다. Ollama나 LM Studio가 설치와 모델 관리를 더 감싸 준다면, llama.cpp는 그 아래에서 속도, 메모리, 템플릿, 서버 옵션을 직접 만지는 쪽이야.

왜 중요한가

llama-cpp라는 태그가 붙은 글은 보통 “새 모델이 나왔다”보다 “그 모델을 내 장비에서 굴릴 수 있나”에 가까운 질문을 다뤄. Gemma 4 사례가 딱 그래. PR #21534가 2026-04-09에 머지되면서 Gemma 4 tokenizer edge case가 고쳐졌고, 커뮤니티에서는 31B Q5 양자화 모델을 current master에서 안정적으로 돌렸다는 보고가 나왔어. 다만 그 글도 릴리스 빌드가 아니라 소스 코드 master 기준이라고 선을 그었고, CUDA 13.2는 피하라는 조건까지 붙였어.

성능 실험도 같은 식으로 읽어야 해. 한 Reddit 벤치마크는 RTX 5090 32GB에서 Gemma 4 31B를 메인 모델로, E2B를 draft model로 두고 추측 디코딩을 켰을 때 평균 57.17 t/s가 73.73 t/s로 올라간 +29.0% 사례를 보여 줬어. 코드 생성은 +50.5%까지 갔지만, creative text나 번역에서는 +10%대에 머물렀고, early GGUF metadata가 맞지 않으면 draft model이 오히려 손해가 날 수 있었다고 적었어. 숫자는 좋지만, 조건을 안 보면 바로 틀리기 쉬운 종류의 숫자야.

주의해서 볼 점

첫째, llama.cpp 지원은 모델 품질 보증이 아니야. Gemma 4 26B A4B가 25.2B 총 파라미터와 3.8B 활성 파라미터를 가진다고 해도, 실제 로컬 속도는 GGUF 변환, 양자화 비트 수, KV cache 타입, chat template, 백엔드 빌드가 같이 결정해.

둘째, “OpenAI 호환”은 요청 형식이 비슷하다는 뜻이지 OpenAI 서비스와 같은 품질, 정책, 인증, 과금 체계를 준다는 뜻은 아니야. 내부 앱을 llama-server에 연결할 때는 /v1/chat/completions가 호출되는지만 보지 말고, 로그, 네트워크 노출, 모델 alias, context 길이, 장애 복구까지 같이 확인해야 해.

셋째, 벤치마크는 먼저 조건을 읽는 게 낫다. RTX 5090 32GB, 128K context, --draft-max 8, TurboQuant fork에서 나온 +29.0% 평균값을 AMD iGPU나 일반 릴리스 빌드로 그대로 옮기면 안 맞을 수 있어. 그래서 llama-cpp 글을 읽을 때는 모델명보다 실행 파일, 빌드 시점, GGUF 버전, RAM·VRAM 구성을 먼저 보는 편이 덜 헷갈려.

이 항목을 참조하는 위키

📰 관련 기사 (8)

BeeLlama v0.2.0, RTX 3090 한 장으로 Qwen 3.6 27B를 164 tok/s로 돌려2026-05-24🔥100점 · 출처 3
Gemma 4, llama.cpp에서 안정화 완료 — PR #21534 머지로 이슈 전부 해결2026-04-09🔥87점 · 출처 11
Qwen3.6 35B-A3B, ThinkPad의 내장 GPU 780M에서 20 tok/s 나왔어2026-04-24🔥87점 · 출처 3
Llama.cpp, 같은 RTX 5080에서 Lubuntu가 Windows보다 18% 빨랐어2026-04-27🔥79점 · 출처 3
LLM이 자기 llama.cpp 최적화 플래그를 직접 튜닝해서 54% 빨라졌다2026-04-15🔥78점 · 출처 2
llama.cpp에 음성 인식이 들어왔다 — Gemma 4로 로컬 STT 가능2026-04-13🔥76점 · 출처 3
Gemma 4 31B에 추론 가속 붙였더니 코드 생성 50% 빨라졌어2026-04-13🔥73점 · 출처 3
llama.cpp --fit 플래그 — VRAM 32GB로 Qwen3.6 Q8 256K 돌리기2026-04-22⚡69점 · 출처 2

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-03 KST

검증 생성: AI + 편집 검토 · 2026-05-03 상태: 통과

통과 원문 대조 검증 출처 4

공식 저장소와 후보 출처를 대조해서 llama-cpp를 모델명이 아니라 llama.cpp 런타임 표기로 잡았어.

독자 문제 대조: 후보 JSON은 categoryGuess가 model 쪽이었지만, 공식 저장소는 llama.cpp를 LLM 추론을 위한 C/C++ 프로젝트로 설명해서 category를 tool로 바로잡았어.
공식 README는 로컬 GGUF 파일을 `llama-cli -m`으로 실행하고 `llama-server -hf`로 OpenAI 호환 API 서버를 여는 예시를 함께 보여 줘.
PR #21534는 2026-04-09에 master로 머지된 Gemma 4 tokenizer edge-case 수정과 테스트 추가라서, 본문에서는 Gemma 4 모델 자체가 아니라 호환성 개선 사례로만 다뤘어.
Reddit 안정화 글은 current master 기준이라고 선을 그어, 릴리스 버전까지 자동으로 안정화됐다는 식으로 넓히지 않았어.

통과 교차 검증 검증 출처 5

공식 문서, PR, 커뮤니티 벤치마크, Gemma 4 모델 카드를 서로 다른 층위로 나눠 봤어.

비교 기준: llama.cpp 공식 문서는 실행 엔진과 서버 기능을, Gemma 4 모델 카드는 모델 크기와 컨텍스트를, Reddit 글은 특정 하드웨어에서의 경험치를 말해.
server README는 `llama-server`가 기본적으로 127.0.0.1:8080에서 뜨고 `/completion`과 OAI 호환 endpoint를 제공하는 서버라는 점을 확인해.
Gemma 4 26B A4B 모델 카드는 25.2B 총 파라미터와 3.8B 활성 파라미터를 밝히고, 31B dense와 함께 워크스테이션·consumer GPU 쪽 배포 대상으로 잡아.
추측 디코딩 Reddit 글은 llama.cpp fork와 TurboQuant KV cache를 쓴 단일 벤치마크라서, 공식 llama.cpp 기본 성능 수치처럼 쓰지 않았어.

통과 수치 검증 검증 출처 5

본문에 넣은 숫자는 공식 문서나 원문 벤치마크에서 직접 확인되는 값으로 제한했어.

llama.cpp README의 양자화 범위는 1.5비트, 2비트, 3비트, 4비트, 5비트, 6비트, 8비트 정수 양자화로 확인했어.
server README의 quick start는 `-c 2048` 예시와 기본 127.0.0.1:8080 리슨 동작을 보여 줘서, 본문에서 API 운영 예시를 그 범위 안에 뒀어.
PR #21534는 2026-04-09에 merge commit 0ec191e로 master에 들어갔고, GitHub 화면 기준 47개 체크 중 44개가 통과한 상태로 기록돼.
추측 디코딩 벤치마크는 RTX 5090 32GB, 128K context, main 18.3GB, draft 3.0GB 조건에서 평균 57.17 t/s가 73.73 t/s로 올라간 +29.0% 사례야.
같은 벤치마크에서 code generation은 57.15 t/s에서 86.05 t/s로 올라 +50.5%였고, `--draft-max 8`이 mixed workload 평균 73.73 t/s를 냈어.

통과 비판 검토 검증 출처 4

호환성 개선, 커뮤니티 벤치마크, 로컬 실행 가능성을 과장하지 않게 경계를 다시 잡았어.

llama-cpp를 Gemma 4나 LLaMA 모델 계열로 오해하지 않게, 첫 정의에서 표기와 실제 도구 이름을 분리했어.
Gemma 4 안정화 글은 Q5 quants, interleaved chat template, `--cache-ram 2048 -ctxcp 2`, CUDA 13.2 회피 같은 조건이 붙은 경험담이라 일반 보장으로 쓰지 않았어.
추측 디코딩 성능은 token vocabulary 호환성과 metadata가 맞을 때 나온 사례라서, 모든 GGUF 조합에서 +29%가 난다는 문장으로 바꾸지 않았어.
Ollama나 LM Studio와의 차이는 성능 우열이 아니라 추상화 수준으로 적었어. llama.cpp는 더 직접 제어하고, 상위 도구는 설치와 모델 관리를 더 감싸는 쪽이야.

이 페이지의 핵심 위험은 category model 오분류와 커뮤니티 벤치마크 일반화야.
본문은 공식 기능과 Reddit 실험값을 분리해서 읽도록 구성했어.

출처: ggml-org/llama.cpp , llama.cpp tools/server README , llama.cpp PR #21534 , Reddit r/LocalLLaMA — Gemma 4 on Llama.cpp should be stable now , Reddit r/LocalLLaMA — Speculative Decoding works great for Gemma 4 31B , Google Gemma 4 26B A4B model card on Hugging Face

llama.cpp(로컬 LLM 런타임)

전체 AI 기술 맵에서의 위치

한 줄 정의

실제로 무엇을 하나

왜 중요한가

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키

📰 관련 기사 (8)