무슨 일이 있었나

Anthropic이 자율 AI 에이전트(AAR)로 정렬 연구를 자동화한 결과를 공개했어. 핵심은 weak-to-strong supervision이라는 문제야 — 약한 모델의 감독만으로 더 강한 모델을 학습시킬 수 있는지를 다루는 건데, 이게 결국 사람이 자기보다 똑똑한 AI를 어떻게 통제하느냐와 직결되거든.

왜 중요할까

숫자가 강렬해. 사람 연구원 2명이 7일간 매달린 결과는 PGR(Performance Gap Recovered) 0.23이었어. 그런데 AI 에이전트 9대를 병렬로 돌렸더니 5일 만에 PGR 0.97을 찍었거든. 누적 800시간 작업에 비용은 약 1만 8천 달러, 시간당 22달러꼴이야. 에이전트들은 독립된 샌드박스에서 아이디어 제안부터 실험, 코드 공유까지 전부 자율적으로 돌렸어.

앞으로 볼 점

실무에서 의미 있는 건 “측정 가능한 목표가 있는 연구는 이미 자동화할 수 있다”는 결론이야. 물론 열린 문제나 창의적 연구와는 차이가 있지만, 벤치마크 최적화나 하이퍼파라미터 탐색 같은 반복 작업이라면 사람보다 에이전트가 빠르고 싼 시대가 이미 온 거야.