이 뉴스의 요약은 어떻게 만들어졌나요?

원문 링크를 바탕으로 핵심 요약을 만들고 fact-check 및 신호 점검을 거쳐 게재됩니다.

팩트체크 기준은 무엇인가요?

근거 링크, 수치 점검, 문맥 정합성, 최신성으로 조합해 상태를 표시해.

LiveBrowseComp, 검색 에이전트를 335개 최신 질문으로 다시 쟀어

LiveBrowseComp 논문이 BrowseComp 계열 검색 벤치마크의 허점을 짚었어. 기존 정적 질문에서는 에이전트가 도구 없이도 최대 44.5%를 맞혔고, 새 335개 최신 질문 세트에서는 웹 도구를 끄고 맞히는 기준선 정확도가 모두 2% 미만으로 내려갔어.

무슨 일이 일어났나

LiveBrowseComp 논문이 2026년 5월 27일 arXiv에 올라왔어. KST로는 5월 28일 새벽이야. 질문은 단순해 보여. 검색 에이전트가 웹에서 진짜 찾아내는 걸까, 아니면 이미 모델 안에 있는 답을 웹으로 확인만 하는 걸까?

기존 평가의 빈틈

논문은 기존 BrowseComp 계열 평가에서 내부 지식 의존도, 논문 표현으로는 IKD라는 현상을 짚어. 에이전트가 도구를 쓰더라도 외부 증거보다 모델 안에 이미 든 지식에 기대는 정도를 말해. 실제로 BrowseComp 질문은 도구 없이도 최대 44.5%까지 맞힐 수 있었다고 보고했어.

또 검색 질의의 절반 이상이 검색 결과에서 이어진 단서가 아니라, 모델이 먼저 만든 가설에서 나왔다고 봤어. 이러면 벤치마크가 재는 것이 “찾는 능력”인지 “이미 아는 답을 검증하는 능력”인지 흐려져.

새 평가가 바꾼 것

LiveBrowseComp는 사람이 쓴 335개 질문으로 구성됐어. 답은 평가를 만들기 전 90일 안에 공개된 사실에 의존하고, 전 세계적으로 크게 알려진 사건은 걸러냈어. 모델 내부에 이미 들어 있을 가능성을 낮추려는 설계야.

결과는 뚜렷했어. LiveBrowseComp에서는 평가한 모든 에이전트의 웹 도구를 끄고 맞히는 기준선, 즉 closed-book 정확도가 2% 미만이었고, 검색 도구를 붙인 점수도 BrowseComp보다 25~40포인트 떨어졌어. 기존 순위가 새 평가 순위를 안정적으로 예측하지도 못했다고 해.

주의해서 볼 점

이 논문도 arXiv 프리프린트야. 335개 질문이라는 규모도 검색 에이전트 전체를 대표한다고 단정하기엔 작아. 다만 평가를 만들 때 “이 답이 모델 안에 이미 있었나”를 따로 막아야 한다는 지적은 중요해. 검색 에이전트 점수를 볼 때는 정답률만 보지 말고, 웹 도구를 끄고 맞히는 기준선과 최신성 필터를 같이 봐야 해. 이 둘을 공개한 결과는 비교할 만하고, 둘 중 하나가 빠진 점수는 일단 보류하는 편이 맞아.

태그

#agent#search#benchmark#browsecomp#eval#arxiv

포맷 v3 가이드 news 3.4.1

팩트 체크

통과 · 2026-05-29 KST

검증 생성: AI + 편집 검토 · 2026-05-29 상태: 통과

통과 원문 대조

arXiv 원문 abstract에서 연구 질문, 새 데이터셋 규모, 웹 도구를 끈 기준선 결과, 점수 하락 폭을 확인했어.

논문은 검색 에이전트가 실제 검색보다 내부 지식 확인에 기대는지 묻고 있어.
LiveBrowseComp는 평가 구성 직전 90일 안의 사실에 의존하는 335개 사람이 쓴 질문으로 설명돼.
웹 도구를 끄고 맞히는 기준선 정확도 2% 미만, 검색 도구를 붙인 점수 25~40포인트 하락을 abstract에서 확인했어.

통과 교차 검증 검증 출처 3

arXiv 원문, 데이터셋 페이지, BrowseComp 원 벤치마크 설명을 분리해서 봤어.

1차 출처 교차검증: arXiv abstract에서 제출일, 데이터셋 규모, 핵심 수치를 확인했어.
Hugging Face 데이터셋 페이지는 LiveBrowseComp가 실제로 공개된 데이터셋 경로인지 확인하는 보조 출처야.
OpenAI BrowseComp 설명은 비교 대상인 기존 검색 평가의 목적을 확인하는 기준점이야.

통과 수치 검증

본문 수치를 arXiv abstract 기준으로 확인했어.

44.5%: BrowseComp 질문을 도구 없이 맞힌 최대 비율로 확인했어.
335개: LiveBrowseComp 질문 수로 확인했어.
90일: 평가 구성 직전 사실만 쓰는 시간 제한으로 확인했어.
2% 미만, 25~40포인트 하락: 새 평가에서 웹 도구를 끈 기준선과 검색 도구를 붙인 결과로 확인했어.
Mechanism evidence: 질문을 최신·비전역 이벤트로 제한해 모델 내부 기억으로 맞히기 어렵게 만든 구조야.

통과 비판 검토

프리프린트와 벤치마크 설계 한계를 같이 적었어.

arXiv 프리프린트라 동료 평가를 거친 결과는 아니야.
335개 질문은 기존 BrowseComp보다 작아서 범위와 대표성은 별도 검증이 필요해.
최신 사실 기반 평가는 시간이 지나면 다시 오염될 수 있으니 지속 갱신이 핵심이야.

정적 평가가 모델 기억 기반 확인을 보상할 수 있다는 한계를 본문에 반영 완료.
LiveBrowseComp도 새 기준선이지 완성된 검색 평가라고 쓰지 않음.

출처: arXiv — LiveBrowseComp , Hugging Face Datasets — Forival/LiveBrowseComp , OpenAI — BrowseComp