무슨 일이 있었나
후성유전체 분석 워크플로우에서 AI 에이전트의 판단력을 결정론적으로 채점하는 벤치마크 EpiBench가 arXiv에 올라왔어. 핵심은 “채점 가능한 정답(deterministically gradable answers)“이야. 에이전트한테 현실적인 분석 워크플로우 상태를 주고, 거기서 내린 결정을 사람 채점자나 LLM 심판 없이 객관적으로 자동 채점해. 총 106개 평가로 구성됐어.
어떻게 평가했나
EpiBench는 후성유전체에서 자주 쓰는 네 종류 실험 데이터를 다뤄.
- CUT&Tag / CUT&RUN: 단백질-DNA 결합을 보는 어세이.
- ATAC-seq: 열린 염색질 영역을 보는 어세이.
- ChIP-seq: 전사인자·히스톤 변형 위치를 보는 어세이.
- DNA methylation: DNA 메틸화 패턴을 보는 어세이.
여기에 16개 모델-하니스 조합을 돌려 유효 trajectory 5,088개를 평가했어. 1위는 GPT-5.5/Pi로 성공률 45.0%(143/318 시도)였고, 과반을 넘긴 시스템은 하나도 없었어. 에이전트들은 중간 단계는 곧잘 풀다가도 어세이별로 깊은 과학적 판단이 필요한 순간에 무너졌어.
어떤 의미인가
좁은 과학 도메인이지만 빌더 입장에서 볼 신호는 분명해. 에이전트 평가를 “느낌상 잘하더라” 같은 주관적 채점이 아니라 결정론적으로 채점 가능한 정답으로 바꾸면, 어디서 무너지는지가 숫자로 드러나. 여기서도 1위가 45.0%에 그친 덕분에 “중간 단계는 되는데 깊은 판단에서 실패한다”는 약점이 잡혔어. 다만 이건 저자들이 직접 만들고 직접 평가한 벤치마크라, 절대 점수를 일반 에이전트 성능으로 곧장 일반화하지 말고 채점 방식 자체를 참고하는 게 맞아.