한 줄 정의

MMLU(Massive Multitask Language Understanding)는 언어 모델이 넓은 지식 문제를 얼마나 잘 푸는지 보는 벤치마크야. 원 논문은 57개 task에 걸친 multitask accuracy test라고 설명하고, 초등 수학, 미국사, 컴퓨터과학, 법 같은 과목을 예로 들어.

그러니까 MMLU 점수는 “이 모델이 똑똑하다”는 전체 품질표라기보다, 영어 텍스트 객관식 문제를 같은 규칙으로 풀렸을 때의 평균 정답률에 가까워. 채팅 말투, API 안정성, 도구 호출, 코딩 저장소 수정, 한국어 사내 문서 처리까지 한 번에 보장하는 숫자는 아니야.

어떻게 작동하나

MMLU는 질문과 4개 선택지를 주고, 모델이 정답을 고르게 하는 방식으로 많이 쓰여. Hugging Facecais/mmlu 데이터셋 카드도 text, question answering, multiple-choice QA, English로 표시하고, 데이터 뷰어에서 choices 길이 4와 answer class 4개를 보여 줘. 4지선다라서 무작위 찍기 기준은 25%로 읽으면 돼.

과목은 하나가 아니야. Hugging Face 카드59개 subset을 보여 주고, abstract algebra, anatomy, astronomy, professional law, moral scenarios 같은 묶음을 따로 둬. all subset은 116k rows, auxiliary_train은 99.8k rows로 보이고, professional_law처럼 큰 과목은 1.71k rows까지 올라가. 그래서 전체 평균만 보면 어떤 분야에서 강한지 놓치기 쉬워.

평가 설정도 같이 적어야 해. 0-shot인지 few-shot인지, Chain-of-Thought를 허용했는지, 데이터셋 revision이 무엇인지가 달라지면 같은 MMLU라는 이름이어도 점수가 흔들려. 모델 카드에서 숫자를 가져올 때는 최소한 모델 버전, prompt 방식, shot 수, 평가 코드가 같이 있어야 비교가 된다.

왜 중요한가

MMLU가 오래 살아남은 이유는 범위가 넓어서야. 단일 수학 시험이나 코딩 시험이 아니라, 인문·사회과학·STEM·전문 지식 과목을 한 표에 묶어 모델의 일반 지식 체력을 보게 해. 새 LLM 발표에서 MMLU가 자주 나오는 것도 이 숫자가 후보 모델을 처음 거르는 필터로 쓰이기 쉬워서 그래.

다만 필터는 필터야. 예를 들어 고객지원 자동화 모델을 고른다면 MMLU 평균보다 실제 FAQ, 환불 정책, 한국어 대화 로그에서의 정답률이 더 중요할 수 있어. 코딩 에이전트를 고른다면 SWE-bench VerifiedTerminal-Bench가 더 가까울 수 있고, 과학 추론을 보려면 GPQA Diamond 쪽이 더 날카로울 수 있어.

최근 모델 카드에서는 MMLU 이름이 변형 이름과 같이 등장해. Google DeepMindGemma 4 페이지는 Performance 표에 MMMLU, MMMU Pro, AIME 2026, LiveCodeBench v6, GPQA Diamond, tau2-bench를 나란히 둬. 여기서 MMMLU는 multilingual Q&A 표기라 원래 MMLU 점수와 같은 시험처럼 섞어 읽으면 안 돼.

주의해서 볼 점

첫 번째 주의점은 데이터 누수야. MMLU는 공개된 유명 benchmark라서 모델이 학습 중 비슷한 문제를 봤을 가능성을 완전히 지우기 어렵다. 점수가 높아도 실제 업무 샘플에서 다시 재야 하는 이유가 여기 있어.

두 번째는 변별력이야. MMLU Pro 논문은 원래 MMLU가 대형 모델 사이에서 성능 차이를 덜 갈라 보이게 됐다고 보고, 더 어려운 reasoning-focused question과 10개 선택지를 넣은 변형을 제안했어. 같은 논문 초록은 MMLU-Pro가 MMLU 대비 정확도를 16%~33% 낮추고, 24개 prompt style에서 민감도를 4%~5%에서 2%로 줄였다고 설명해.

세 번째는 평가 축 혼동이야. MMLU가 높다는 건 넓은 지식 객관식 문제에서 강하다는 신호야. 하지만 function calling, 에이전트 장기 실행, 멀티모달 입력, 온디바이스 지연시간, 토큰 비용은 다른 시험을 봐야 한다. 발표 자료에서 MMLU 한 줄만 크게 보이면, 그 숫자가 무엇을 못 재는지부터 같이 보는 편이 맞아.

MMLU Pro와의 경계

MMLU와 MMLU Pro는 같은 계열이지만 같은 시험은 아니야. MMLU는 오래된 57개 과목 중심의 넓은 지식 평가고, MMLU Pro는 쉬운 문제와 애매한 문제를 줄이고 선택지를 보통 10개로 늘려 상위 모델을 더 잘 가르려는 변형이야.

그래서 모델 A의 MMLU 90점과 모델 B의 MMLU Pro 80점을 같은 난이도 숫자로 비교하면 안 돼. 비교하려면 같은 benchmark, 같은 데이터셋 버전, 같은 prompt 방식, 같은 채점 코드로 다시 맞춰야 해. 숫자는 표에 있는 그대로 보되, 시험이 다르면 결론도 달라져.