한 줄 정의
GGUF는 모델 이름이 아니라 로컬 실행용 파일 포맷이야. 같은 베이스 모델이라도 GGUF로 배포되면 llama.cpp나 LM Studio 같은 실행기에서 바로 불러오기 쉬워져. 가중치만 따로 두는 형식보다 실행에 필요한 메타데이터를 같이 싣는다는 점이 이 포맷의 성격을 잘 보여 줘.
어떻게 작동하나
원래 PyTorch 같은 프레임워크에서 학습한 가중치를 GGUF로 변환하면 텐서, 토크나이저 정보, 양자화 관련 메타데이터가 한 파일 묶음으로 정리돼. 실행기는 그 파일을 읽고 CPU나 GPU에서 바로 추론을 시작하니까, 로컬 배포 흐름이 훨씬 단순해져. 허깅페이스 문서 기준으로 GGUF는 tensor-only 포맷과 달리 표준화된 메타데이터도 같이 담아 둔다는 점이 중요해. 그래서 같은 모델이어도 어떤 양자화본인지, 어떤 실행기와 잘 맞는지 파악하기 쉬워.
왜 중요한가
로컬 AI에서는 모델 성능만큼이나 어떤 형식으로 배포됐는지가 중요해. GGUF를 알면 왜 어떤 모델은 Ollama나 llama.cpp에서 바로 뜨고, 어떤 모델은 추가 변환이 필요한지 금방 이해할 수 있어. 또 같은 모델이라도 배포 형식이 바뀌면 메모리 사용량과 설치 난이도가 달라져. 그래서 GGUF는 단순 파일 확장자라기보다 로컬 실행 생태계의 공용 규격처럼 읽는 편이 맞아.
주의해서 볼 점
GGUF라고 해서 품질이 자동으로 좋아지는 건 아니야. 같은 베이스 모델도 Q4, Q8 같은 양자화와 변환 옵션에 따라 속도, 메모리, 답변 질이 꽤 달라져. 또 모든 앱이 모든 GGUF 변형을 똑같이 지원하는 것도 아니야. 기사에서 GGUF가 보이면 모델 자체보다 어떤 실행기와 어떤 양자화 조합인지까지 같이 보는 게 덜 헷갈려.