한 줄 정의

llama-server는 llama.cpp가 같이 배포하는 HTTP 서버 실행 파일이야. llama server라고 띄어 써도 보통 이 서버를 가리켜. GGUF 모델을 로컬 PC나 자체 GPU 서버에 올리고, 그 위에서 OpenAI 호환 또는 Anthropic API 호환 요청을 받는 런타임으로 보면 돼. 이름 때문에 모델처럼 보이지만, 실제로는 오픈 웨이트 모델을 바깥 앱이 호출할 수 있게 하는 서빙 서버야.

실제로 무엇을 하나

실무에서는 기존 앱이 호출하던 API endpoint를 로컬 서버로 바꾸고, 같은 요청 형식으로 로컬 LLM 추론을 실행하게 만든다.

  • llama-server -m model.gguf --port 8080처럼 서버를 띄운 뒤 http://localhost:8080/v1base_url로 넣고 /v1/chat/completions, /v1/responses, /v1/models 같은 endpoint를 호출해.
  • 내부 챗봇, 코딩 보조, 구조화 JSON 출력처럼 원래 관리형 API에 보내던 요청을 로컬 GGUF 백엔드가 처리하게 바꿀 수 있어.
  • 임베딩/v1/embeddings로 붙일 수 있지만, 전용 embedding 모델과 pooling 설정을 같이 봐야 해. 리랭킹도 /v1/rerank 계열 endpoint가 있지만 기본으로 켜진 기능은 아니어서 --rerank 또는 --reranking으로 endpoint를 열고, reranker 모델과 --embedding --pooling rank 같은 실행 조건을 같이 맞춰야 해.
  • -hf owner/modelHugging Face호환 모델을 가져오거나 로컬 GGUF 파일을 직접 지정할 수 있어. -c 16384처럼 컨텍스트를 16,384 토큰으로 열고, -np 4처럼 서버 슬롯을 4개로 잡아 병렬 처리 실험을 할 수도 있어.
  • 멀티모달 요청은 서버가 경로를 제공하더라도 모델과 mmproj 파일이 맞아야 해. 그래서 이미지 입력 지원 여부는 llama-server 이름만 보지 말고 /v1/models의 capability와 실제 로드한 모델 구성을 확인해야 해.

왜 중요한가

중요한 이유는 오픈 웨이트 모델 파일과 기존 앱 사이에 얇은 API 호환층을 만들기 때문이야. 같은 OpenAI 형식 요청을 유지한 채 데이터를 로컬에 두고, 비용 계산도 토큰 단가표보다 RAM·VRAM·양자화·전력·운영 시간 쪽으로 옮겨 보게 만든다.

그래서 어떤 모델이 llama-server로 잘 돈다는 말이 나오면, 그건 모델 품질 얘기만이 아니라 기존 툴체인을 크게 바꾸지 않고 자체 서빙으로 옮길 수 있다는 뜻일 때가 많아. 반대로 이 서버가 OpenAI 호환 endpoint를 제공한다고 해서 OpenAI 서비스와 같은 품질, 정책, 가격 체계를 제공하는 건 아니야. LM Studio처럼 사람이 모델을 고르고 테스트하는 GUI와도 다르게, llama-server는 앱이 붙을 API 경로를 먼저 여는 쪽에 가까워.

주의해서 볼 점

llama-server는 파라미터 수가 고정된 모델 카드가 아니야. 실제 메모리 사용량과 지연 시간은 어떤 GGUF를 골랐는지, 몇 비트로 양자화했는지, --ctx-size를 얼마나 열었는지, 어느 GPU에 몇 레이어를 offload했는지에 따라 달라져.

또 쉬운 챗앱으로만 보면 판단이 흐려져. 실제 확인 대상은 base_url 전환이 가능한지, 앱이 쓰는 endpoint가 서버에서 지원되는지, /v1/models가 보여주는 모델 메타데이터와 capability가 작업에 맞는지, 운영 환경에서 인증·네트워크 노출·로그 관리를 어떻게 할지야.

같이 보면 좋은 도구와 개념

  • llama.cpp: llama-server가 들어 있는 로컬 LLM 실행 엔진이야. 서버 기능만 보지 말고 어떤 백엔드와 하드웨어에서 추론하는지 같이 봐야 해.
  • LM Studio: 데스크톱 GUI로 로컬 모델을 관리하고 쓰는 쪽에 가까워. 앱의 base_url을 바꾸는 서버 레이어가 우선인지, 사람이 직접 모델을 고르고 테스트하는 UI가 우선인지 비교할 때 좋아.
  • Local LLM: 데이터를 로컬에 두고 모델을 직접 돌리는 전체 운영 선택지야. llama-server는 그중 API 서빙을 맡는 한 경로야.
  • GGUF, Quantization, Runtime, Inference: 서버 도입 난이도는 이 네 가지가 같이 결정해. 파일 형식, 비트 수, 실행 엔진, 실제 요청 처리 작업을 분리해서 봐야 해.