무슨 일인가

LocalLLaMA 커뮤니티OpenLumara라는 이름의 AI 에이전트가 공개됐어. 제작자가 포스트 첫 줄에 이렇게 썼어 — “또 다른 에이전트 발표 포스트인 거 알아. 수도 없이 많지. 근데 대부분은 바이브코딩으로 엉성하게 짜여 있고 컨텍스트를 마구 잡아먹어.”

OpenLumara는 이런 접근으로 다른 방향을 잡았어:

  • 극소 시스템 프롬프트: 컨텍스트를 최대한 아껴서 로컬 모델에서도 빠르게 동작
  • 완전 모듈식 구조: 기능별로 분리돼 있어 필요한 부분만 교체 가능
  • 바이브코딩 없음: 처음부터 직접 짠 코드

Qwen3, Gemma 4 같은 로컬 모델에서 잘 작동한다고 해. 서버도 필요 없고, 모바일 수준 하드웨어에서도 쓸 수 있다고 했어.

왜 나온 건가

로컬 LLM 커뮤니티에서 에이전트 프레임워크에 대한 불만이 꽤 있었어. 클라우드 API 기준으로 설계된 에이전트들은 컨텍스트를 지나치게 많이 써서 로컬 모델에선 속도가 너무 느리거나 품질이 떨어져. 특히 토큰 예산이 제한적인 4B~12B 파라미터 모델에선 이 문제가 더 두드러지거든.

OpenLumara가 말하는 핵심은 “컨텍스트 아끼기”야. 시스템 프롬프트가 작을수록 실제 추론에 쓸 수 있는 공간이 늘어나거든. 4B12B 파라미터 모델에서 컨텍스트 윈도우가 보통 4k16k 토큰 수준인데, 거기서 시스템 프롬프트 혼자 수천 토큰을 써버리면 실제로 남는 공간이 거의 없어.

써볼 가치가 있는가

현재 GitHub 저장소가 공개됐지만 아직 외부 벤치마크나 독립 사용 후기는 많지 않아. 클라우드 없이 로컬 LLM 에이전트를 직접 구성하려는 사람이라면 설계 원칙 자체가 참고할 만해. 로컬 에이전트 스택을 찾고 있다면 한번 봐볼 수 있어.