무슨 일이 일어났나
LLM을 객관식 정답 고르기가 아니라, 실제 환자 케이스를 순차로 다루는 의사처럼 세워서 평가하는 EHR(전자의무기록) 환경 벤치마크 ClinEnv가 나왔어. 모델이 약물·처치·진단을 정하기 전에 전문 에이전트들한테 먼저 자문을 구하는 단계까지 포함돼 있어.
어떤 결과가 나왔나
7개 모델을 돌렸는데 점수가 낮았어.
- 결정 F1 최고
0.31: 가장 강한 모델도 0.31에 그쳤어 - 진단
0.51vs 관리 행동0.17: 퇴원 진단을 복원하는 건 그나마 나았는데, 실제 처치·관리 행동은 훨씬 약했어 - 결과와 과정의 분리: 결과 품질이 과정 품질과 따로 논다는 게 핵심 발견이야
특히 정보를 충분히 모으지 못하는 “정보 획득 격차”를 직접 측정할 수 있게 만든 게 이 벤치마크의 특징이야.
어떤 의미인가
LLM한테 실무 의사결정을 바로 맡기기엔 아직 이르다는 자료로 볼 수 있어. 답을 맞히는 것과 좋은 과정을 거치는 게 다르다는 점이 숫자로 나온 거거든. 물론 ClinEnv 하나의 점수라 다른 임상 과제로 일반화하면 안 되고, 아직 프리프린트 단계야. 그래도 “결과만 보지 말고 과정을 따로 봐야 한다”는 평가 관점은 업무 자동화에도 그대로 적용돼.