클라우드 모델이냐, 기기 안 모델이냐

에이전트를 실제로 굴리려면 클라우드의 큰 모델을 쓸지, 기기에서 도는 작은 모델을 쓸지부터 골라야 해. 한 연구진이 이 둘을 섞은 하이브리드 멀티에이전트를 30쪽, 그림 16개 분량으로 분석한 논문 When Cloud Agents Meet Device Agents를 ICML 2026의 AIWILD 워크숍에 냈어.

정확도·비용·전력이 한 묶음

이 연구가 짚은 건 세 가지가 따로 놀지 않는다는 거야. 작업 정확도, 돈으로 나가는 비용, 그리고 온디바이스 추론이 잡아먹는 전력이 서로 엮여 있어. 그래서 “그냥 제일 센 클라우드 모델 쓰면 되지”가 안 통해. 연구진은 대표적인 두 가지 구조를 하이브리드로 바꿔가며 이 셋의 줄다리기를 비교했어.

큰 모델이 늘 이기진 않아

결론이 담백해. 최적 구조는 작업마다 다르고, 프런티어급 연산을 더 들이부어도 성능이 그만큼 따라 오르진 않더라는 거야. 작은 모델도 큰 모델의 도움을 받으면 충분히 제 몫을 하는 경우가 있다는 거지. 비용과 전력까지 같이 보면, 무조건 큰 모델이 정답이라는 가정은 한 번 의심해볼 만해.

주의할 점

이건 워크숍에 낸 프리프린트야. 2026년 5월 28일 공개됐고 정식 동료 평가 전이라, 구체적인 비용·전력 수치나 어떤 작업에서 어떤 구조가 이겼는지는 원문 30쪽을 직접 봐야 잡혀. 추상적인 결론만 받아들이지 말고, 네 작업이 정확도가 중요한지 비용이 중요한지부터 정한 다음에 참고하는 게 맞아.