한 줄 정의
llama-server는 llama.cpp가 같이 배포하는 HTTP 서버 실행 파일이야. llama server라고 띄어 써도 보통 이 서버를 가리켜. GGUF 모델을 로컬 PC나 자체 GPU 서버에 올리고, 그 위에서 OpenAI 호환 또는 Anthropic API 호환 요청을 받는 런타임으로 보면 돼. 이름 때문에 모델처럼 보이지만, 실제로는 오픈 웨이트 모델을 바깥 앱이 호출할 수 있게 하는 서빙 서버야.
실제로 무엇을 하나
실무에서는 기존 앱이 호출하던 API endpoint를 로컬 서버로 바꾸고, 같은 요청 형식으로 로컬 LLM 추론을 실행하게 만든다.
llama-server -m model.gguf --port 8080처럼 서버를 띄운 뒤http://localhost:8080/v1을base_url로 넣고/v1/chat/completions,/v1/responses,/v1/models같은 endpoint를 호출해.- 내부 챗봇, 코딩 보조, 구조화 JSON 출력처럼 원래 관리형 API에 보내던 요청을 로컬 GGUF 백엔드가 처리하게 바꿀 수 있어.
- 임베딩은
/v1/embeddings로 붙일 수 있지만, 전용 embedding 모델과 pooling 설정을 같이 봐야 해. 리랭킹도/v1/rerank계열 endpoint가 있지만 기본으로 켜진 기능은 아니어서--rerank또는--reranking으로 endpoint를 열고, reranker 모델과--embedding --pooling rank같은 실행 조건을 같이 맞춰야 해. -hf owner/model로 Hugging Face의 호환 모델을 가져오거나 로컬 GGUF 파일을 직접 지정할 수 있어.-c 16384처럼 컨텍스트를 16,384 토큰으로 열고,-np 4처럼 서버 슬롯을 4개로 잡아 병렬 처리 실험을 할 수도 있어.- 멀티모달 요청은 서버가 경로를 제공하더라도 모델과
mmproj파일이 맞아야 해. 그래서 이미지 입력 지원 여부는llama-server이름만 보지 말고/v1/models의 capability와 실제 로드한 모델 구성을 확인해야 해.
왜 중요한가
중요한 이유는 오픈 웨이트 모델 파일과 기존 앱 사이에 얇은 API 호환층을 만들기 때문이야. 같은 OpenAI 형식 요청을 유지한 채 데이터를 로컬에 두고, 비용 계산도 토큰 단가표보다 RAM·VRAM·양자화·전력·운영 시간 쪽으로 옮겨 보게 만든다.
그래서 어떤 모델이 llama-server로 잘 돈다는 말이 나오면, 그건 모델 품질 얘기만이 아니라 기존 툴체인을 크게 바꾸지 않고 자체 서빙으로 옮길 수 있다는 뜻일 때가 많아. 반대로 이 서버가 OpenAI 호환 endpoint를 제공한다고 해서 OpenAI 서비스와 같은 품질, 정책, 가격 체계를 제공하는 건 아니야. LM Studio처럼 사람이 모델을 고르고 테스트하는 GUI와도 다르게, llama-server는 앱이 붙을 API 경로를 먼저 여는 쪽에 가까워.
주의해서 볼 점
llama-server는 파라미터 수가 고정된 모델 카드가 아니야. 실제 메모리 사용량과 지연 시간은 어떤 GGUF를 골랐는지, 몇 비트로 양자화했는지, --ctx-size를 얼마나 열었는지, 어느 GPU에 몇 레이어를 offload했는지에 따라 달라져.
또 쉬운 챗앱으로만 보면 판단이 흐려져. 실제 확인 대상은 base_url 전환이 가능한지, 앱이 쓰는 endpoint가 서버에서 지원되는지, /v1/models가 보여주는 모델 메타데이터와 capability가 작업에 맞는지, 운영 환경에서 인증·네트워크 노출·로그 관리를 어떻게 할지야.
같이 보면 좋은 도구와 개념
- llama.cpp: llama-server가 들어 있는 로컬 LLM 실행 엔진이야. 서버 기능만 보지 말고 어떤 백엔드와 하드웨어에서 추론하는지 같이 봐야 해.
- LM Studio: 데스크톱 GUI로 로컬 모델을 관리하고 쓰는 쪽에 가까워. 앱의
base_url을 바꾸는 서버 레이어가 우선인지, 사람이 직접 모델을 고르고 테스트하는 UI가 우선인지 비교할 때 좋아. - Local LLM: 데이터를 로컬에 두고 모델을 직접 돌리는 전체 운영 선택지야. llama-server는 그중 API 서빙을 맡는 한 경로야.
- GGUF, Quantization, Runtime, Inference: 서버 도입 난이도는 이 네 가지가 같이 결정해. 파일 형식, 비트 수, 실행 엔진, 실제 요청 처리 작업을 분리해서 봐야 해.