로컬에서 에이전트를 돌려본 사람이라면 아마 한번쯤 겪어봤을 거야 — 툴 콜이 갑자기 깨지거나, 에이전트가 같은 행동을 끝도 없이 반복하는 루프. r/LocalLLaMA 커뮤니티에서 여러 모델을 직접 비교한 결과가 올라왔는데, 현시점 로컬 에이전트 용도로는 Qwen3.6 35B A3B가 가장 안정적인 선택지라는 합의가 형성되고 있어.
비교 대상은 두 가지. Gemma4는 간헐적으로 툴 콜 응답이 손상되는 문제가 발생했고, GLM 4.7 Flash는 2~3 메시지 이후부터 루프를 스스로 벗어나지 못했거든. Qwen3.6도 루프가 아예 없진 않지만, 대부분 상황에서 회복이 됐어. 테스트 기준은 IQ4_N 퀀트, 128 GB RAM 환경이야. 비슷한 맥락의 비교 스레드가 5개 이상 동시에 올라올 만큼 커뮤니티 관심이 높은 주제야.
왜 지금 이게 중요하냐면 — 오픈소스 에이전트 인프라(MCP 서버, 코딩 에이전트, 멀티스텝 워크플로우)가 빠르게 늘면서 로컬 추론의 안정성 요구 수준도 함께 올라가고 있거든. 클라우드 API 없이 사내에서 에이전트를 돌리려는 팀이라면, 지금 당장 Qwen3.6 35B A3B를 기준점으로 삼아볼 만해.