무슨 일이 있었나
r/LocalLLaMA에 LDR(Local Deep Research) 메인테이너가 “We are finally there: Qwen3.6-27B + agentic search; 95.7% SimpleQA on a single 3090, fully local” 라는 제목으로 글을 올렸어. Qwen 3.6-27B 모델에 에이전틱 웹검색을 붙여서 SimpleQA 벤치마크 95.7%, xbench 77%를 찍었다는 내용이야. RTX 3090 한 대로 다 돌아가고, 외부 API 의존이 없어.
왜 이게 의미 있나
LDR은 LangGraph 기반 에이전트로 굴러가. 모델이 직접 어떤 검색엔진(arXiv, PubMed, 웹)을 쓸지 결정하고, 결과를 합성해. 기존 RAG 파이프라인이 정해진 순서로 검색→요약을 돌렸다면, 에이전틱 검색은 모델이 자율적으로 경로를 선택하는 거지.
- 로컬 풀스택: 모델 + 검색 + 합성이 전부 한 머신에서 돈다. Ollama 기반.
- 외부 API 0: GPT-4 같은 클라우드 모델 호출 없이도 95% 근방의 정답률.
- 검색 출처 다양성: arXiv, PubMed, Semantic Scholar, 일반 웹, 사용자 사설 문서까지 10+ 소스 통합.
어떤 의미인가
GPT-4 + 검색 조합이 클라우드에서 굳이 비싼 이유는 모델 크기와 검색 인프라 통합 비용이었어. 27B 모델 + 오픈소스 에이전트로 같은 정답률이 나온다면, 로컬 환경에서 자체 RAG 시스템을 굴리려는 1인 개발자나 프라이버시 민감 워크로드에서 충분한 대안이 돼.
다만 95.7%는 LDR 측 자체 측정이야. 독립 third-party 검증은 아직 없고, 검색엔진 품질에 따라 실제 결과는 달라질 수 있어. 그래도 “GPT 구독료 vs 로컬 LLM 자유도”의 균형이 한쪽으로 더 기울었다는 신호는 분명해 보여.