이 용어는 어디까지 신뢰할 수 있나요?

각 용어는 최신 공개 자료 기반으로 정리되며, 출처와 검증 기록을 바탕으로 점진적으로 업데이트됩니다.

llama-server(로컬 LLM 서빙 서버)

다른 이름: llama serverllama-server

llama-server(로컬 LLM 서빙 서버)는 ggml-org의 `llama.cpp`에 들어 있는 HTTP 서버 실행 파일이야. GGUF 모델을 로컬이나 자체 GPU 서버에 올리고 OpenAI·Anthropic 호환 API로 요청을 처리하게 만드는 서빙 서버/API 레이어로 이해해야 해.

전체 AI 기술 맵에서의 위치

응용 (Application)

프로젝트 (Project)

데이터셋 (Dataset)

기법 (Technique)

프레임워크 (Framework)

모델 (Model)

개념 (Concept)

Agents SDK(에이전트 SDK)AI Studio (AI 스튜디오)Aider(에이더)Alibaba Cloud API(알리바바 클라우드 API)Alibaba Cloud Model Studio(알리바바 클라우드 모델 스튜디오)Amazon Bedrock(아마존 베드록)Anthropic API(앤트로픽 API)App Store(앱 스토어)Batch API(배치 API)BentoML(벤토엠엘)Chat (대화형 AI 인터페이스)Chat Completions(챗 컴플리션스)ChatGPT(챗지피티)Chroma(크로마)Claude Code(클로드 코드)Claude Code Remote Control(클로드 코드 리모트 컨트롤)Claude Cowork(클로드 코워크)Claude Desktop(클로드 데스크톱)claude remote-control(클로드 리모트 컨트롤 명령)claude --version (버전 조회)claude.ai(클로드 웹 앱)Cline(클라인)CloudTrail(클라우드트레일)Codex(코덱스)Codex CLI(코덱스 CLI)ComfyUI(컴피유아이)Continue(컨티뉴)GitHub Copilot (깃허브 코파일럿)Cursor(커서)DeepSeek API(딥시크 API)DGX B200(디지엑스 B200)DGX Spark(디지엑스 스파크)Docker(도커)Excel(엑셀)FAISS (페이스)Gemini API(제미니 API)Gemini API File Search(제미니 API 파일 검색)Gemini Developer API(제미니 디벨로퍼 API)Gemini Enterprise Agent Platform(제미니 엔터프라이즈 에이전트 플랫폼)GitHub (깃허브)Gmail(지메일)Google AI Studio(구글 AI 스튜디오)Google Calendar(구글 캘린더)Google Docs(구글 문서)Google Drive(구글 드라이브)Google Search(구글 검색)Google Sheets(구글 시트)H100 (엔비디아 호퍼 GPU)Hugging Face(허깅 페이스)Jetson Thor(젯슨 토르)Kimi API(키미 API)Kimi Code(키미 코드)Kimi.com(키미닷컴)KTransformers (케이트랜스포머스)Live API(라이브 API)llama-cli (로컬 LLM CLI)llama.cpp(로컬 LLM 런타임)llama-server(로컬 LLM 서빙 서버)llama.cpp (로컬 LLM 추론 엔진)LM Studio(엘엠 스튜디오)LocalLLaMA (로컬라마)Microsoft Foundry(마이크로소프트 파운드리)MiMo Code (미모 코드)MLflow(엠엘플로우)Modal(모달)Model Garden(모델 가든)Model Studio(모델 스튜디오)Model Studio API(모델 스튜디오 API)ModelScope(모델스코프)n8n(엔에잇엔)Ollama(올라마)OpenAI API(오픈에이아이 API)OpenAI Chat Completion(오픈AI 챗 컴플리션)OpenAI SDK(오픈에이아이 SDK)OpenClaw(오픈클로)OpenRouter(오픈라우터)Perplexity (퍼플렉시티)Pinecone (파인콘)Qdrant (큐드런트)Qwen API(큐원 API)Qwen Code(큐원 코드)Qwen Studio(큐원 스튜디오)Raspberry Pi (라즈베리 파이)Replicate(레플리케이트)Responses API(리스폰스 API)SGLang(에스지랭)Studio(스튜디오)Supabase(수파베이스)Tokenizer(토크나이저)Triton Inference Server(트리톤 추론 서버)Vector Database (벡터 데이터베이스)vLLM(브이엘엘엠)VS Code(비주얼 스튜디오 코드)Weaviate(위비에이트)Weights & Biases(웨이츠 앤 바이어시스)Windsurf(윈드서프)

Activepieces (액티브피시스)agent-skills Agentic AQUA (에이전틱 아쿠아)AgentTrust Apache Airflow (아파치 에어플로)Cairn (케언)DeepGEMM(딥시크 CUDA 커널 라이브러리)Engram(엔그램)HyperFrames (하이퍼프레임스)LightRAG (라이트RAG)Manifest (매니페스트)mcp-mydisease (MyDisease.info MCP 서버)mcp-xray (Jira Xray MCP 서버)NautilusTrader (노틸러스 트레이더)NostalgiaForInfinity (노스탤지아 포 인피니티)opencodex(오픈코덱스)OpenMemory (오픈메모리)PocketBase (포켓베이스)Microsoft Qlib (마이크로소프트 Qlib)Savvly MCP (세이블리 MCP 서버)Tmax(티맥스)whisper.cpp (위스퍼.cpp)yfinance (와이파이낸스)

Nemotron-Personas-Korea (네모트론 페르소나스 코리아)PII-Masking-300k(피아이아이 마스킹 300K)

Agentic AI (에이전틱 AI)Agentic Coding(에이전틱 코딩)benchmark (벤치마크)Chain-of-Thought(연쇄 추론 유도)DeepSeek Sparse Attention (딥시크 스파스 어텐션)Distillation (지식 증류)Eval(평가)Fine-tuning (파인튜닝)Function Calling(함수 호출)Grounding (그라운딩)Guardrail(가드레일)--kv-cache-dtype bfloat16 (BF16 KV 캐시 저장 형식 플래그)Prompt Caching(프롬프트 캐싱)Prompt Engineering(프롬프트 엔지니어링)Quantization (양자화)RAG (검색 증강 생성)reasoning.effort (리즈닝 이포트)Red Teaming (레드 팀잉)RLHF(인간 피드백 기반 강화학습)Speech to Text(음성 인식)Synthetic Data(합성 데이터)Text to Speech(음성 합성)Tool Use(도구 사용)Training(학습)Vibe Coding(바이브 코딩)

Agent Platform(에이전트 플랫폼)Agent Runtime(에이전트 런타임)AutoGen(오토젠)Claude Managed Agents(클로드 매니지드 에이전트)CrewAI (크루에이아이)DeepSpeed(딥스피드)GGUF(GGUF 모델 파일 형식)Gradio (그라디오)JAX (잭스)Kubeflow(쿠브플로우)LangChain (랭체인)LangGraph(랭그래프)LlamaIndex (라마인덱스)llm-server(로컬 llama.cpp 서빙 자동화 프레임워크)MCP (모델 컨텍스트 프로토콜)MCP server (MCP 서버)MLX(엠엘엑스)ONNX(오닉스)PyTorch(파이토치)Ray(레이)Runtime(런타임)Streamlit(스트림릿)TensorFlow (텐서플로)TensorRT Edge-LLM(텐서RT 엣지 LLM)Transformer Engine(트랜스포머 엔진)Vercel AI SDK(버셀 AI SDK)x402 (에이전트 micropayment 프로토콜)

Alibaba Qwen (알리바바 큐원)Anthropic Claude(앤트로픽 클로드)ChatGPT-5.2 Instant (챗지피티 5.2 인스턴트)ChatGPT-5.2 Pro (챗지피티 5.2 프로)Claude(클로드)Claude Fable 5(클로드 페이블 5)Claude Opus(클로드 오퍼스)Claude Opus 4.5(클로드 오퍼스 4.5)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Opus 4.7(클로드 오퍼스 4.7)Claude Opus 4.6(클로드 오퍼스 4.6)Claude Sonnet (클로드 소넷)Claude Sonnet 4.5(클로드 소네트 4.5)DALL-E (달리)DeepSeek (딥시크)deepseek-chat (딥시크 챗)DeepSeek R1(딥시크 R1)DeepSeek Reasoner (딥시크 리저너)DeepSeek-V3.2-Speciale (딥시크 V3.2-Speciale)DeepSeek V4 (딥시크 V4)FLUX.1 (플럭스 원)Gemini(제미니)Gemini 2.5 (제미나이 2.5)Gemini 2.5 Flash (제미나이 2.5 플래시)Gemini 2.5 Pro (제미나이 2.5 프로)Gemini Embedding(제미니 임베딩)Gemini Embedding 2(제미니 임베딩 2)Gemini Omni(제미니 옴니)Gemma (젬마)Gemma 3(젬마 3)Gemma 4(젬마 4)Gemma-4-26B-A4B-NVFP4(젬마 4 26B A4B NVFP4)GLM (지엘엠)GLM 5(지엘엠 5)GLM 5.1(지엘엠 5.1)GPT-2 (지피티-2)GPT-3 (지피티-3)GPT-3.5 (지피티-3.5)GPT-4 (지피티-4)GPT-4.1 (지피티 4.1)GPT-4o(지피티-4o)gpt-4o-mini (지피티-4o 미니)gpt-4o-mini-2024-07-18 스냅샷 GPT-5 (지피티-5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5-Codex (지피티 5 코덱스)GPT-5.1 (지피티 5.1)gpt-5.1-chat-latest (지피티 5.1 챗 레이티스트)GPT-5.1 Codex (지피티 5.1 코덱스)GPT-5.1 Codex mini (지피티 5.1 코덱스 미니)gpt-5.2 gpt-5.2-2025-12-11 (GPT-5.2 고정 스냅샷)gpt-5.2-chat-latest (지피티 5.2 챗 레이티스트)GPT-5.2 Pro (지피티 5.2 프로)GPT-5.2 Pro 2025-12-11 스냅샷 (지피티 5.2 프로 고정 버전)GPT-5.2 Thinking (지피티 5.2 씽킹)GPT-5.3 (지피티 5.3)gpt-5.3-chat-latest (지피티 5.3 챗 레이티스트)GPT-5.3 Instant (GPT-5.3 인스턴트)GPT-5.4 (지피티 5.4)gpt-5.4-2026-03-05 (GPT-5.4 고정 스냅샷)GPT-5.4 API (지피티 5.4 API)GPT-5.4-Cyber (지피티 5.4 사이버)GPT-5.4 Mini (지피티 5.4 미니)GPT-5.4 Pro (지피티 5.4 프로)GPT-5.4 Thinking (지피티 5.4 씽킹)GPT-5.5 (지피티 5.5)GPT-5.5 Instant (지피티 5.5 인스턴트)GPT-5.5 Pro (GPT-5.5 프로)GPT-5.5 Thinking (지피티 5.5 씽킹)GPT Image(지피티 이미지)gpt-image-2 (지피티 이미지 2)gpt-oss(지피티 오에스에스)GPT-OSS 20B(오픈 웨이트 모델)GPT-Rosalind(지피티-로절린드)Grok (그록)Imagen (이마젠)K2.5 (키미 K2.5)Kimi(키미)Kimi K2 (키미 K2)Kimi K2.6 (키미 K2.6)Llama (라마)Lyria (리리아)M2.7(엠투점칠)MiMo-V2.5-ASR (샤오미 음성인식 모델)MiniMax M2.7(미니맥스 M2.7)Mistral(미스트랄 모델 계열)Mistral AI (미스트랄 AI)Mixtral(믹스트랄)model="deepseek-reasoner" (딥시크 리저너 모델값)Mythos Preview (마이토스 프리뷰)Nano Banana(나노 바나나)Nemotron 3 Nano Omni (네모트론 3 나노 옴니)Nemotron OCR v2 (네모트론 OCR v2)o1(OpenAI 추론 모델)o3 (오쓰리)Phi (파이)Privacy Filter(프라이버시 필터)Qwen (큐원)큐웬 3.5(Qwen 3.5)Qwen3 (큐원3)Qwen3-14B (큐원3 14B)Qwen3-14B-GGUF (큐원3 14B GGUF)Qwen3-30B-A3B (큐웬3 30B A3B)Qwen3.5-122B-A10B (122B MoE 대체형)Qwen3.5-27B (큐웬3.5-27B)Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled (쿠엔3.5-27B 클로드 4.6 오퍼스 리즈닝 디스틸드)Qwen3.5-35B-A3B (큐원 3.5-35B-A3B)Qwen3.5-9B (큐원 3.5-9B)Qwen3.5-9B BF16 (큐원 3.5-9B BF16)Qwen3.6 (큐원 3.6)Qwen3.6-27B (큐원 3.6-27B)Qwen3.6 27B FP8 (큐원 3.6 27B FP8)Qwen3.6-35B-A3B (큐원 3.6-35B-A3B)Sora (소라)Stable Diffusion(스테이블 디퓨전)DeepSeek V2.5 (딥시크 V2.5)DeepSeek V3.2 (딥시크 V3.2)V3.2-Speciale (딥시크 V3.2-Speciale)V4-Flash (딥시크 V4-Flash)V4 Pro (딥시크 V4 프로)Veo (비오)Whisper (위스퍼)

24GB GPU(24GB VRAM 카드)A3B (활성 파라미터 3B 표기)A4B(활성 파라미터 4B)A4B MoE(A4B 전문가 혼합 표기)A4B NVFP4(A4B 엔브이FP4)AI Agent (AI 에이전트)Google Cloud Agent Gateway (에이전트 게이트웨이)Agent Identity(에이전트 신원)Agent Observability(에이전트 관측성)AI Mode (AI 모드)Alignment(정렬)안드로이드(Android)Anthropic(앤트로픽)API (애플리케이션 프로그래밍 인터페이스)Apple Silicon (애플 실리콘)Attention (어텐션)AWS Bedrock(AWS 베드록)Bedrock(베드록)BF16 (브레인 플로팅 포인트 16)BF16 KV (BF16 키-값 캐시)Blackwell (NVIDIA GPU 아키텍처)BrowseComp(브라우즈컴프)chat-latest (챗 레이티스트)ChatGPT Instant (챗지피티 인스턴트)CLI(명령줄 인터페이스)Cloud (클라우드)Coding Agent(코딩 에이전트)Context(컨텍스트)Context Window(컨텍스트 윈도우)CUDA(쿠다)CUDA 12.9(쿠다 12.9)dataset(데이터셋)Deep Research (딥 리서치)Developer Tools(개발자 도구)DFlash (디플래시)Diffusion Model(확산 모델)E2B (이투비)E4B (이포비)Embedding (임베딩)Enterprise(엔터프라이즈)Enterprise AI(엔터프라이즈 AI)F1 96(에프원 96 표기)F32 (32비트 부동소수점)File Search(파일 검색)FIM completion(중간 채우기 완성)Flash(플래시)FP16 (반정밀도 부동소수점)FP4 (4비트 부동소수점 포맷)FP4 Indexer(FP4 인덱서)FP8 (8비트 부동소수점 포맷)FP8 E4M3(8비트 E4M3 포맷)FP8 KV (FP8 키-값 캐시)FP8 양자화 가중치 FP8 Tensor Core(FP8 텐서 코어)Gated DeltaNet(게이티드 델타넷)GDDR7(그래픽 DRAM 7세대)GDDR7 ECC(오류 수정 GDDR7 메모리)Gemini Intelligence (제미니 인텔리전스)GPQA Diamond (지피큐에이 다이아몬드)GPT (생성형 사전학습 트랜스포머)GPU (그래픽 처리 장치)GPU VRAM(GPU 전용 비디오 메모리)GUI(그래픽 사용자 인터페이스)Hallucination (환각)HTTP API(HTTP 호출 인터페이스)Hugging Face Hub(허깅 페이스 허브)HumanEval(휴먼이밸)IDE (통합 개발 환경)Image Generation(이미지 생성)Inference (추론)Instant(인스턴트)INT4 (4비트 정수 정밀도)INT8 (8비트 정수 정밀도)K2.6 (키미 K2.6 줄임말)KV Cache (KV 캐시)Language Model (언어 모델)Linux(리눅스)LiveCodeBench(라이브코드벤치)LLM (거대 언어 모델)Local LLM (로컬 LLM)Long Context (긴 문맥)M5 Max(M5 맥스)M5 Max 64GB(M5 맥스 64GB)Mac(맥)Managed Agents(관리형 에이전트)Mega MoE(메가 MoE)Memory(메모리)Mixture of Experts(전문가 혼합)MMLU(엠엠엘유)MMLU Pro(엠엠엘유 프로)모델 Multimodal AI(멀티모달 AI)Mythos (마이토스)Nano Omni (나노 옴니)Nemotron(네모트론)NL2Repo 39.8(엔엘투레포 39.8)Nous Research (누스 리서치)NVFP4 (NVIDIA FP4 포맷)NVIDIA GPU(엔비디아 GPU)NVLink(엔비디아 GPU 인터커넥트)OAuth(권한 위임)OCR (광학 문자 인식)On-device AI(온디바이스)Open-weight(오픈 웨이트)openai-agents>=0.14.0(오픈AI 에이전트 SDK 0.14.0 이상)OpenAI-compatible(OpenAI 호환)p95(95번째 백분위 지연시간)Personal Intelligence(퍼스널 인텔리전스)PrivateLink(프라이빗링크)Project Glasswing (프로젝트 글래스윙)PyPI (파이썬 패키지 인덱스)Python (파이썬)Q8 KV (Q8 키-값 캐시)Qwen3.6-35B-A3B Benchmarks (큐웬3.6 벤치마크)RAM (시스템 메모리)Reasoning Model (추론 모델)reasoning content(추론 내용)Reasoning Model (추론 모델)RTX PRO (엔비디아 전문가용 GPU 계열)SaaS(서비스형 소프트웨어)Search (검색)Small Language Model(소형 언어 모델)SWE-bench(깃허브 이슈 해결 벤치마크)SWE-Bench Pro(소프트웨어 엔지니어링 에이전트 벤치마크)SWE-bench Verified (스위벤치 베리파이드)SWE Multilingual(다국어 소프트웨어 엔지니어링 벤치마크 표기)SWE-Pro(에스더블유이 프로 표기)SwiGLU(스위글루)Tensor Core(텐서 코어)Terminal-Bench (터미널 벤치)Terminal-Bench 2.0(터미널 벤치 2.0)Thinking (씽킹)tok/s(초당 토큰)Token (토큰)Token Plan(토큰 플랜)TPU(텐서 처리 장치)Transformer (트랜스포머)Trusted Access (신뢰 기반 접근)TypeScript(타입스크립트)Vertex AI (버텍스 AI)VIBE-Pro(바이브 프로)Video Generation(영상 생성)Vision-Language Model (비전-언어 모델)VRAM(비디오 메모리)Model Weights(웨이트)Windows(윈도우)Word(워드 문서)Xiaomi MiMo(샤오미 미모)YaRN (야른)

한 줄 정의

llama-server는 llama.cpp가 같이 배포하는 HTTP 서버 실행 파일이야. llama server라고 띄어 써도 보통 이 서버를 가리켜. GGUF 모델을 로컬 PC나 자체 GPU 서버에 올리고, 그 위에서 OpenAI 호환 또는 Anthropic API 호환 요청을 받는 런타임으로 보면 돼. 이름 때문에 모델처럼 보이지만, 실제로는 오픈 웨이트 모델을 바깥 앱이 호출할 수 있게 하는 서빙 서버야.

실제로 무엇을 하나

실무에서는 기존 앱이 호출하던 API endpoint를 로컬 서버로 바꾸고, 같은 요청 형식으로 로컬 LLM 추론을 실행하게 만든다.

llama-server -m model.gguf --port 8080처럼 서버를 띄운 뒤 http://localhost:8080/v1을 base_url로 넣고 /v1/chat/completions, /v1/responses, /v1/models 같은 endpoint를 호출해.
내부 챗봇, 코딩 보조, 구조화 JSON 출력처럼 원래 관리형 API에 보내던 요청을 로컬 GGUF 백엔드가 처리하게 바꿀 수 있어.
임베딩은 /v1/embeddings로 붙일 수 있지만, 전용 embedding 모델과 pooling 설정을 같이 봐야 해. 리랭킹도 /v1/rerank 계열 endpoint가 있지만 기본으로 켜진 기능은 아니어서 --rerank 또는 --reranking으로 endpoint를 열고, reranker 모델과 --embedding --pooling rank 같은 실행 조건을 같이 맞춰야 해.
-hf owner/model로 Hugging Face의 호환 모델을 가져오거나 로컬 GGUF 파일을 직접 지정할 수 있어. -c 16384처럼 컨텍스트를 16,384 토큰으로 열고, -np 4처럼 서버 슬롯을 4개로 잡아 병렬 처리 실험을 할 수도 있어.
멀티모달 요청은 서버가 경로를 제공하더라도 모델과 mmproj 파일이 맞아야 해. 그래서 이미지 입력 지원 여부는 llama-server 이름만 보지 말고 /v1/models의 capability와 실제 로드한 모델 구성을 확인해야 해.

왜 중요한가

중요한 이유는 오픈 웨이트 모델 파일과 기존 앱 사이에 얇은 API 호환층을 만들기 때문이야. 같은 OpenAI 형식 요청을 유지한 채 데이터를 로컬에 두고, 비용 계산도 토큰 단가표보다 RAM·VRAM·양자화·전력·운영 시간 쪽으로 옮겨 보게 만든다.

그래서 어떤 모델이 llama-server로 잘 돈다는 말이 나오면, 그건 모델 품질 얘기만이 아니라 기존 툴체인을 크게 바꾸지 않고 자체 서빙으로 옮길 수 있다는 뜻일 때가 많아. 반대로 이 서버가 OpenAI 호환 endpoint를 제공한다고 해서 OpenAI 서비스와 같은 품질, 정책, 가격 체계를 제공하는 건 아니야. LM Studio처럼 사람이 모델을 고르고 테스트하는 GUI와도 다르게, llama-server는 앱이 붙을 API 경로를 먼저 여는 쪽에 가까워.

주의해서 볼 점

llama-server는 파라미터 수가 고정된 모델 카드가 아니야. 실제 메모리 사용량과 지연 시간은 어떤 GGUF를 골랐는지, 몇 비트로 양자화했는지, --ctx-size를 얼마나 열었는지, 어느 GPU에 몇 레이어를 offload했는지에 따라 달라져.

또 쉬운 챗앱으로만 보면 판단이 흐려져. 실제 확인 대상은 base_url 전환이 가능한지, 앱이 쓰는 endpoint가 서버에서 지원되는지, /v1/models가 보여주는 모델 메타데이터와 capability가 작업에 맞는지, 운영 환경에서 인증·네트워크 노출·로그 관리를 어떻게 할지야.

같이 보면 좋은 도구와 개념

llama.cpp: llama-server가 들어 있는 로컬 LLM 실행 엔진이야. 서버 기능만 보지 말고 어떤 백엔드와 하드웨어에서 추론하는지 같이 봐야 해.
LM Studio: 데스크톱 GUI로 로컬 모델을 관리하고 쓰는 쪽에 가까워. 앱의 base_url을 바꾸는 서버 레이어가 우선인지, 사람이 직접 모델을 고르고 테스트하는 UI가 우선인지 비교할 때 좋아.
Local LLM: 데이터를 로컬에 두고 모델을 직접 돌리는 전체 운영 선택지야. llama-server는 그중 API 서빙을 맡는 한 경로야.
GGUF, Quantization, Runtime, Inference: 서버 도입 난이도는 이 네 가지가 같이 결정해. 파일 형식, 비트 수, 실행 엔진, 실제 요청 처리 작업을 분리해서 봐야 해.

이 항목을 참조하는 위키

포맷 v2 가이드 wiki 3.1.2

팩트 체크

통과 · 2026-04-30 KST

검증 생성: AI + 편집 검토 · 2026-04-30 상태: 통과

통과 원문 대조

공식 server README를 직접 출처로 두고, llama-server를 모델 계열이 아니라 `llama.cpp`가 제공하는 HTTP 서버와 REST API 레이어로 맞췄어.

독자 문제 대조: 이름이 모델명처럼 보이지만 실제로는 모델 가중치가 아니라 `llama.cpp`가 함께 배포하는 HTTP 서버 실행 파일이라는 점을 첫 문단과 readerValue에서 직접 확인하게 했어.
server README의 HTTP 서버 설명과 LLM REST API·웹 UI 설명을 정의 근거로 연결해서, 첫 문단과 summary를 서빙 서버/API 레이어 쪽으로 고정했어.
루트 README의 quick start가 `llama-server -hf ...`를 OpenAI 호환 API 서버 실행 예시로 두는지 확인하고, `-hf` 설명을 모델 자체가 아니라 로딩 경로로 정리했어.
server README의 `--rerank, --reranking` 옵션이 reranking endpoint를 켜며 기본값은 disabled라는 점을 확인해서, `/v1/rerank` 설명을 endpoint 이름만으로 끝내지 않았어.
Reddit 커뮤니티 글은 공식 기능 검증 출처에서 제거했고, 기능 범위는 공식 README 두 곳으로만 검증했어.

통과 교차 검증 검증 출처 4

llama.cpp 공식 문서 안에서 endpoint 기능을 확인하고, LM Studio 문서와 OpenAI API Reference는 제품 성격과 관리형 API 비교축을 가르는 독립 출처로만 썼어.

비교 기준: llama-server와 LM Studio는 서버 실행 파일/API 레이어인지 데스크톱 GUI·워크벤치인지로 갈라 보고, OpenAI-compatible endpoint와 실제 OpenAI 서비스는 요청 형식 호환인지 품질·정책·가격까지 맡기는 관리형 API인지로 나눠 봤어.
OpenAI 호환 chat completions, responses, embeddings와 Anthropic 호환 messages는 server README의 API endpoint 설명에 연결했어.
기본 포트 8080, `--ctx-size` 기본값 0, `-np/--parallel` 슬롯 옵션은 server README의 서버·공통 파라미터 설명에 연결했어.
GGUF, Hugging Face `-hf`, 양자화와 하드웨어 백엔드는 루트 README의 `llama.cpp` 실행·모델 준비 설명과 server README의 모델 소스 설명을 함께 기준으로 삼았어.
독립 출처는 llama-server의 endpoint 세부 기능을 새로 검증하는 용도가 아니라, LM Studio와 OpenAI API처럼 해석이 달라지는 비교 대상을 분리하는 용도로 제한했어.

통과 수치 검증

본문 숫자는 서버 README에서 확인 가능한 실행·운영 숫자로만 남겼어.

`--port` 기본값은 8080이고, 본문도 `http://localhost:8080/v1`와 `/v1/chat/completions`를 server README의 예시 범위 안에서 사용했어.
`--ctx-size` 기본값은 0이며 0일 때 로드한 모델 설정을 따른다고 적혀 있어서, 본문에서는 `-c 16384`를 사용자가 여는 예시값으로만 썼어.
`-np/--parallel`은 서버 슬롯 수 옵션이고 기본값은 자동이므로, 본문의 `-np 4`는 고정 성능 보장이 아니라 병렬 슬롯 실험값으로 설명했어.
`/v1/rerank`는 reranker 모델과 `--embedding --pooling rank`만으로 설명하지 않고, `--rerank` 또는 `--reranking`으로 endpoint를 켜야 하는 조건까지 반영했어.

통과 비판 검토

모델명처럼 보이는 이름, OpenAI 호환이라는 표현, 멀티모달 지원 범위를 모두 과장 없이 좁혔어.

frontmatter를 `category: tool`로 바꾸고, 모델 전용 `modelType`과 `modelProfile`을 제거해서 본문 정의와 분류 충돌을 없앴어.
OpenAI·Anthropic 호환 API는 요청 형식 호환이지 OpenAI나 Anthropic 서비스의 품질, 정책, 가격을 복제한다는 뜻이 아니라고 본문과 web_cross_check 비교축에 남겼어.
멀티모달, 임베딩, 리랭킹은 서버 endpoint만으로 끝나지 않고 로드한 모델, pooling, mmproj, 실행 옵션에 좌우된다고 제한을 붙였어.

llama-server는 모델 자체가 아니라 `llama.cpp`가 묶어 배포하는 HTTP 서빙 서버야.
운영 판단은 모델 이름보다 GGUF 선택, 양자화, RAM·VRAM, `--ctx-size`, GPU offload, API endpoint 전환에서 갈려.

출처: llama.cpp tools/server README , ggml-org/llama.cpp , LM Studio Docs | LM Studio , API Overview | OpenAI API Reference