무슨 일이 일어났나
LearnWeak 논문이 2026년 5월 27일 arXiv에 올라왔어. KST로는 5월 28일 새벽이야. 주제는 컴퓨터 사용 에이전트, 그러니까 화면을 보고 클릭하고 입력하면서 컴퓨터 작업을 처리하는 에이전트야.
핵심 질문은 이거야. 업무 영역마다 큰 전문가 모델을 붙이는 건 비싸. 그렇다면 작은 오픈 에이전트를 업무별로 특화할 수 있을까?
LearnWeak가 하는 방식
단순히 특화하려는 업무 영역의 데이터를 많이 합성하는 방식은 효과가 작았다고 논문은 말해. 그래서 LearnWeak는 더 강한 기준 에이전트를 먼저 써.
- 입력: 특화하려는 업무 영역과 개선할 작은 에이전트를 정해.
- 약점 탐지: 강한 기준 에이전트가 작은 에이전트의 실행을 보고 어디서 틀리는지 찾아.
- 과제와 학습 신호 생성: 그 약점에 맞춘 새 과제를 만들고, 무엇을 정답으로 배워야 하는지 신호를 붙여.
- 검증: 만든 과제로 다시 평가해서 약점 중심 특화가 실제로 나아졌는지 봐.
또 에러를 하나로 뭉개지 않아. 계획을 잘못 세운 경우인지, 계획은 맞는데 클릭이나 입력 실행에서 틀린 경우인지 나눠서 학습 목표를 잡아. “더 많은 데이터”보다 “이 작은 모델이 어디서 틀리는지”를 먼저 보는 구조야.
숫자로 보면
OSWorld 평가에서 LearnWeak는 8개 도메인을 대상으로 평균 향상을 보고했어. EvoCUA-8B 대비 11.6%p, OpenCUA-7B 대비 11.1%p야. 논문은 작은 에이전트의 약점을 반영해 데이터와 학습 신호를 만드는 방식이, 기존처럼 에이전트가 자동으로 지나간 작업 경로를 모아 학습시키는 기준 방식보다 낫다고 설명해.
이 수치는 비용이나 배포 제약 때문에 큰 모델 하나를 계속 호출하기 어려운 팀에게 판단 근거가 돼. 자주 반복되는 업무라면 작은 컴퓨터 사용 에이전트를 그 업무에 맞춰 특화하는 전략을 검토할 수 있거든.
주의해서 볼 점
아직 arXiv 프리프린트고, 결과는 연구진의 OSWorld 설정 안에서 나온 값이야. 강한 기준 에이전트가 약점을 잘 찾아야 LearnWeak도 잘 돌아가. 그리고 OSWorld에서 좋아졌다고 해서 실제 사내 업무까지 바로 통한다고 보면 안 돼.
업무에 붙이기 전에는 짧은 검증 과제를 먼저 잡아야 해.
- 앱 권한: 에이전트가 필요한 화면과 메뉴에 실제로 접근할 수 있는지 확인해.
- 파일 상태: 시작 파일, 저장 위치, 중간 산출물이 평가 때마다 같은 조건인지 맞춰.
- 브라우저 세션: 로그인, 쿠키, 탭 상태가 바뀌어도 같은 절차를 수행하는지 봐.
- 업무별 정답 기준: 클릭을 끝낸 것만 볼지, 최종 문서나 데이터 변경까지 볼지 미리 정해.