무슨 일이 있었나

LLM이 스타트업 CEO를 얼마나 잘 할 수 있을까? 이걸 진지하게 측정한 벤치마크가 나왔어. YC-BenchLLM 에이전트에게 시뮬레이션 스타트업의 1년 경영(수백 턴)을 맡기는 POMDP 기반 벤치마크야. 직원 관리, 계약 수주, 급여 지급까지 실제 경영 의사결정을 반복해야 하고, 클라이언트 중 약 35%는 계약 후 업무 요구량을 몰래 늘리는 함정도 있어.

왜 중요할까

12개 모델 중 평균 최종 자금 100만 달러를 넘긴 건 딱 3개뿐이야. Claude Opus 4.6이 평균 127만 달러로 1위, GLM-5가 121만 달러로 바로 뒤를 쫓았어. 재밌는 건 GLM-5추론 비용이 Claude Opus 4.6의 11분의 1이라는 거야. 비용 대비 성과로 따지면 GLM-5가 사실상 최고 효율이야.

앞으로 볼 점

상위 모델들의 공통 전략도 눈에 띄어. 초반에 1-2개 클라이언트에 집중해서 신뢰를 쌓으면, 성공할수록 향후 업무량이 최대 50%까지 줄어드는 “신뢰 눈덩이” 효과가 발동해. 반대로 여러 클라이언트에 분산 투자한 모델은 의미 있는 업무 경감에 도달 못 하고 급여 부담에 침몰했어. 코딩 벤치마크로는 측정 못 하는 장기 전략 능력을 보여주는 결과야.