한 줄 정의
Local LLM은 거대 언어 모델을 클라우드 API 대신 내 컴퓨터나 내 서버에서 직접 돌리는 방식을 말해. 쉽게 말해 모델을 남의 서버에 보내서 쓰는 게 아니라, 내가 가진 장비 안에서 실행하는 형태라고 보면 돼.
그래서 local LLM은 새 모델 이름이 아니라 배포 방식이야. 같은 모델이라도 어떤 건 API로 쓰고, 어떤 건 로컬에서 직접 돌릴 수 있는데, 여기서 달라지는 건 실행 위치와 운영 방식이야.
어떻게 작동하나
보통은 오픈 웨이트 모델을 내려받고, Ollama나 LM Studio, llama.cpp 같은 도구로 실행해. 그러면 인터넷이 느리거나 외부 API를 쓰기 어려운 환경에서도 챗봇, 코딩 보조, 문서 요약 같은 작업을 로컬에서 돌릴 수 있어.
이 방식이 주목받는 이유는 프라이버시와 통제권 때문이야. 입력 데이터를 외부 API로 보내지 않고, 어떤 모델을 쓸지, 어떤 버전으로 돌릴지, 어떤 양자화 설정을 쓸지 직접 정할 수 있으니까.
왜 중요한가
local LLM을 이해하면 “오픈 모델이 떴다”는 뉴스가 왜 중요한지 보이기 쉬워져. 그게 단순 공개가 아니라, 개인 장비나 사내 서버에서도 돌릴 수 있는 선택지가 늘었다는 뜻일 수 있거든.
또 비용 구조도 달라져. 클라우드 API는 호출할 때마다 비용이 나가지만, 로컬은 초기 하드웨어 비용과 운영 부담이 더 커지는 대신 반복 사용 비용이 줄 수 있어. 어느 쪽이 유리한지는 사용량과 목적에 따라 달라져.
주의해서 볼 점
로컬에서 돌린다고 해서 무조건 쉽거나 싸진 않아. 모델 크기, VRAM, 양자화, 운영체제, 드라이버, 속도 최적화 같은 현실적인 조건이 바로 발목을 잡을 수 있어.
또 local LLM이 곧 완전한 보안을 뜻하는 것도 아니야. 프롬프트 로그, 플러그인, 원격 동기화, 외부 UI 도구가 있으면 데이터가 다시 밖으로 나갈 수도 있어서, 실행 위치와 데이터 흐름을 따로 봐야 해.
관련 용어
- LocalLLaMA 는 로컬 LLM 커뮤니티 문맥에서 자주 보이는 이름이야.
- llama.cpp 는 로컬 실행 도구 문맥에서 가장 자주 붙어 나와.
- DeepSeek R1 처럼 로컬 실행 대상으로 자주 거론되는 모델도 같이 보면 흐름이 잡혀.
- Llama 는 로컬 LLM 생태계에서 자주 쓰이는 대표 모델 계열이야.