무슨 일이 일어났나
LiveBrowseComp 논문이 2026년 5월 27일 arXiv에 올라왔어. KST로는 5월 28일 새벽이야. 질문은 단순해 보여. 검색 에이전트가 웹에서 진짜 찾아내는 걸까, 아니면 이미 모델 안에 있는 답을 웹으로 확인만 하는 걸까?
기존 평가의 빈틈
논문은 기존 BrowseComp 계열 평가에서 내부 지식 의존도, 논문 표현으로는 IKD라는 현상을 짚어. 에이전트가 도구를 쓰더라도 외부 증거보다 모델 안에 이미 든 지식에 기대는 정도를 말해. 실제로 BrowseComp 질문은 도구 없이도 최대 44.5%까지 맞힐 수 있었다고 보고했어.
또 검색 질의의 절반 이상이 검색 결과에서 이어진 단서가 아니라, 모델이 먼저 만든 가설에서 나왔다고 봤어. 이러면 벤치마크가 재는 것이 “찾는 능력”인지 “이미 아는 답을 검증하는 능력”인지 흐려져.
새 평가가 바꾼 것
LiveBrowseComp는 사람이 쓴 335개 질문으로 구성됐어. 답은 평가를 만들기 전 90일 안에 공개된 사실에 의존하고, 전 세계적으로 크게 알려진 사건은 걸러냈어. 모델 내부에 이미 들어 있을 가능성을 낮추려는 설계야.
결과는 뚜렷했어. LiveBrowseComp에서는 평가한 모든 에이전트의 웹 도구를 끄고 맞히는 기준선, 즉 closed-book 정확도가 2% 미만이었고, 검색 도구를 붙인 점수도 BrowseComp보다 25~40포인트 떨어졌어. 기존 순위가 새 평가 순위를 안정적으로 예측하지도 못했다고 해.
주의해서 볼 점
이 논문도 arXiv 프리프린트야. 335개 질문이라는 규모도 검색 에이전트 전체를 대표한다고 단정하기엔 작아. 다만 평가를 만들 때 “이 답이 모델 안에 이미 있었나”를 따로 막아야 한다는 지적은 중요해. 검색 에이전트 점수를 볼 때는 정답률만 보지 말고, 웹 도구를 끄고 맞히는 기준선과 최신성 필터를 같이 봐야 해. 이 둘을 공개한 결과는 비교할 만하고, 둘 중 하나가 빠진 점수는 일단 보류하는 편이 맞아.