무슨 일이 있었나
LLM 에이전트로 자율 과학 발견을 푸는 EurekAgent가 arXiv에 올라왔어. 최적화할 지표와 실행 환경만 주면 에이전트가 스스로 해법을 제안하고 검증하고 반복하는데, EurekAgent는 26원 패킹 문제에서 총 API 비용 $11 미만으로 새 SOTA를 냈어. 수학·커널·머신러닝 작업 여러 곳에서도 새 SOTA를 찍었다고 밝혔어.
핵심은 환경 설계야
저자들의 주장은 이래. 모델이 강해질수록 병목이 “에이전트 워크플로를 어떻게 짤지”에서 “에이전트 환경을 어떻게 설계할지”로 옮겨간다는 거야. 그래서 EurekAgent는 환경을 4가지 차원으로 설계해.
- permissions engineering: 에이전트 실행을 제한하고 평가를 격리해.
- artifact engineering: 파일시스템과 Git으로 산출물을 관리하고 협업하게 해.
- budget engineering: 예산을 인지하면서 탐색하게 해.
- human-in-the-loop engineering: 사람이 쉽게 감독하고 개입하게 해.
이렇게 환경 자체를 짜서 개방형 탐색이나 에이전트 간 협업 같은 좋은 행동은 키우고, reward hacking이나 고비용 사람 감독 같은 나쁜 행동은 억제한다는 설계야.
어떤 의미인가
자율 연구 에이전트를 실제로 키워 쓰는 입장에서 보면, 프롬프트와 워크플로를 다듬는 데만 매달리지 말고 에이전트가 일하는 환경 — 권한, 산출물 관리, 예산, 사람 개입 지점 — 을 먼저 설계 대상으로 보라는 신호야. 다만 “사람이 설계한 방식을 능가했다”와 “새 SOTA”는 저자 자체 보고라, 어떤 베이스라인과 작업 범위에서의 결과인지는 같이 따져봐야 해. $11 미만도 26원 패킹 한 사례라, 다른 문제에서도 같은 저비용으로 나올지는 직접 확인하는 게 맞아.