멀티에이전트 LLM 시스템의 현재 구조를 한 줄로 요약하면 “에이전트들이 채팅으로 일한다”야. A 에이전트가 뭔가를 계산하면 그 결과를 자연어 텍스트로 B 에이전트에게 보내고, B는 그걸 다시 토큰으로 처리해서 자기 컨텍스트에 넣는 방식이거든. 5월 13일 arxiv에 올라온 이 프리프린트(2605.13839)는 이 2단계 통신 구조에서 발생하는 비효율을 직접 파고들어.
이 논문이 지적하는 문제는 “직렬화 비용”이야. A가 계산한 중간 표현을 텍스트 토큰으로 변환하는 과정에서 정보 손실이 생기고, B가 그걸 다시 파싱하는 과정에서 추가 토큰과 프리필 오버헤드가 발생한다는 거야. 대규모 멀티에이전트 파이프라인에서는 이게 비용과 지연의 주요 원인이 돼.
제안하는 해법은 “가중치를 직접 보내라”는 거야. 에이전트 A가 학습하거나 파인튜닝한 결과를 자연어로 번역하지 않고, 모델 가중치 업데이트 자체를 B에게 전달하면 정보 손실 없이 협업이 가능하다는 논리야. “Good Agentic Friends”라는 제목 자체가 이걸 빗댄 표현 — 말로만 조언하는 친구가 아니라 직접 행동을 공유하는 친구.
멀티에이전트 워크플로우를 설계하는 사람에게는 방향을 바꿀 수 있는 개념이야. 지금은 “에이전트 간 통신 = 프롬프트”가 거의 기본값인데, 가중치 레벨의 공유가 실용화되면 에이전트 오케스트레이션의 병목 구조 자체가 달라질 수 있거든. 아직 프리프린트 단계라 실제 적용까지는 시간이 걸리겠지만, 방향성 자체는 충분히 주목할 만해.
💬 비판적 시각: 가중치 직접 전달은 현재 동일 아키텍처 모델 간에만 가능해. 이기종 에이전트(Claude + GPT 등)가 섞인 실제 환경에는 직접 적용이 어려워.