AI가 AI를 심사할 때 무슨 일이 일어나는지를 파헤친 논문이 나왔어. 결론부터 말하면 — LLM이 창의적 텍스트를 제대로 평가하지 못한다는 거야.

이 연구는 문학 번역을 기준으로 실험했어. 인간 번역, 기계 번역, 사후 편집(MT를 인간이 수정한 것) 3가지를 전문 문학 번역가들이 창의성 기준으로 채점하고, 같은 텍스트를 LLM-as-a-judge(자동 평가 지표 + LLM 심사관)에도 평가시켰어. 대상은 3개 언어쌍, 시·소설·에세이 3개 장르야.

발견된 패턴이 꽤 뚜렷해. LLM 심사관이 기계 번역 텍스트에 체계적으로 더 높은 점수를 줬어. 반면 창의적이고 문화적으로 적절하지만 “표준적이지 않은” 번역은 오류로 처리하는 경향이 있었어. 시 장르에서 이 격차가 가장 컸고, 전문가와 LLM평가 상관관계가 유독 낮았어.

왜 이런 일이 생기나? LLM은 대규모 텍스트 데이터로 학습할 때 “표준적인 표현”에 최적화돼. 창의적 번역처럼 규칙을 의도적으로 벗어나는 텍스트는 LLM 입장에서 “이상한 것”처럼 보이는 거야. 그래서 고르게 깔린 기계 번역이 오히려 좋은 점수를 받는 역설이 생기는 거고.

이게 AI 평가 시스템을 직접 설계하거나 LLM 출력물 품질 검수에 관여한다면 실용적인 함의가 있어. “LLM이 좋다고 한 것 = 좋은 것”이라는 등식이 창의성 영역에서는 성립하지 않는다는 증거가 하나 더 쌓인 셈이야.