한 줄 정의

MMLU Pro는 언어 모델이 넓은 지식 문제를 얼마나 잘 푸는지 보는 벤치마크야. 기존 MMLU를 그대로 재사용한 이름이 아니라, 쉬운 문제와 애매한 문제를 덜어내고 선택지를 보통 10개로 늘린 더 까다로운 평가 세트라고 보면 돼.

이 이름이 모델 카드에 나오면 “채팅이 자연스러운가”보다 “여러 분야의 객관식 문제를 같은 규칙으로 풀었을 때 얼마나 맞혔나”에 가까워. 2026년 Gemma 4 모델 카드도 MMLU Pro를 AIME 2026, LiveCodeBench v6, GPQA Diamond와 나란히 둬. 모델의 한쪽 성능을 보는 숫자지, 제품 전체 품질표는 아니야.

어떻게 작동하나

MMLU Pro는 텍스트 질문과 선택지를 주고, 모델이 정답 문자를 고르게 해. Hugging Face의 TIGER-Lab/MMLU-Pro 카드 기준으로 default subset은 12.1k rows이고, test split은 12k rows야. 데이터셋 요약 표는 총 12,032문항을 14개 discipline으로 나눠 보여 줘. Math 1,351문항, Physics 1,299문항, Chemistry 1,132문항, Law 1,101문항처럼 분야별 수가 고정돼 있어서, 전체 평균만 보지 말고 분야별 점수도 같이 보는 편이 좋아.

기존 MMLU와 갈리는 지점은 세 가지야.

  • 선택지: 원래 4지선다였던 문제를 보통 10지선다로 늘려서 찍기 기준을 25%에서 10% 수준으로 낮췄어.
  • 문제 난도: 지식만 기억하면 되는 쉬운 질문을 줄이고 추론 중심 문제를 늘렸어.
  • 검토 과정: 선택지를 늘릴 때 GPT-4로 그럴듯한 오답을 만들고, 10명 넘는 전문가 검토를 거쳐 문제와 선택지를 다시 봤다고 데이터셋 카드가 설명해.

평가 설정도 같이 읽어야 해. Hugging Face leaderboard 설명은 보통 5-shot을 쓰지만 일부 Gemini 모델은 0-shot이라고 적어. 또 MMLU Pro에서는 Chain-of-Thought 방식이 직접 답만 고르는 방식보다 유리하게 나올 수 있어. 같은 모델이라도 0-shot인지 5-shot인지, CoT인지 Direct인지가 다르면 점수를 바로 비교하면 안 돼.

왜 중요한가

MMLU Pro가 계속 등장하는 이유는 기존 MMLU 점수가 상위 모델 사이에서 점점 덜 갈라졌기 때문이야. 논문 초록은 MMLU-Pro가 MMLU보다 정확도를 16%~33% 낮추면서도 모델 차이를 더 잘 드러낸다고 설명해. 어렵게 만들었다는 말이 그냥 분위기 표현이 아니라, 같은 모델이 더 낮은 점수를 받도록 문제와 선택지를 조정했다는 뜻이야.

프롬프트 안정성도 이 벤치마크가 강조하는 부분이야. 논문은 24개 prompt style을 시험했을 때 MMLU에서는 점수 민감도가 4%~5%였지만, MMLU-Pro에서는 2%로 줄었다고 적어. 발표 자료에서 이 숫자가 보이면 “이 모델이 아무 프롬프트에서나 완벽하다”가 아니라, 이 평가셋 안에서는 프롬프트 표현 차이에 덜 흔들리게 설계했다는 정도로 읽는 게 맞아.

실무에서는 후보 모델을 처음 좁힐 때 도움이 돼. 예를 들어 Google Gemma 4 모델 카드는 MMLU Pro에서 31B 85.2%, 26B A4B 82.6%, E4B 69.4%, E2B 60.0%, Gemma 3 27B no think 67.6%를 제시해. 이 표만 보면 31B와 26B A4B 쪽이 강해 보이지만, 실제 선택은 추론 비용, 컨텍스트 윈도우, 한국어 업무 샘플, 도구 호출 실패율을 따로 재야 해.

주의해서 볼 점

MMLU Pro는 좋은 필터지만 전부는 아니야. 영어 텍스트 객관식 문제라서, 이미지 이해, 오디오 입력, 장기 도구 사용, 저장소 패치, 사내 문서 검색 품질을 직접 재지 않아. 그래서 SWE-bench VerifiedTerminal-Bench 점수와 같은 뜻으로 섞으면 바로 이상해져.

데이터셋 버전도 봐야 해. Hugging Face 업데이트 로그에는 2024년에 정답 수정과 수식 typo 수정이 여러 번 있었고, 2026년 1월에는 chemistry, physics 같은 STEM subset의 leading space issue가 수정됐다고 남아 있어. 그 공백 문제가 shortcut으로 악용될 수 있었다는 설명까지 붙어 있더라. 그래서 논문 점수, leaderboard 점수, 모델 카드 점수를 비교할 때는 실행 날짜와 데이터셋 revision을 같이 남기는 편이 덜 헷갈려.

그리고 CoT 숫자는 조심해서 읽어야 해. MMLU Pro에서 CoT가 Direct보다 높게 나오는 건 문제들이 단계적 풀이를 더 요구한다는 신호야. 하지만 실제 서비스에서 모델의 내부 추론을 길게 출력하게 만들라는 뜻은 아니야. 운영에서는 정답률, 지연 시간, 토큰 비용, 실패 케이스 로그를 같이 봐야 한다. 숫자는 숫자고 내 손에서 어떤지가 진짜야.

헷갈리기 쉬운 경계

MMLU와 MMLU Pro는 같은 계열이지만 같은 시험은 아니야. MMLU는 57개 subject의 넓은 지식 평가로 오래 쓰였고, MMLU Pro는 그 위에 난도와 오답 선택지를 더해 상위 모델을 더 잘 갈라 보려는 변형이야. 그래서 한 모델의 MMLU 90점과 MMLU Pro 80점을 같은 난이도의 점수처럼 놓으면 안 돼.

GPQA Diamond와도 역할이 달라. GPQA Diamond는 생물학, 물리학, 화학의 대학원급 과학 문제 198개를 더 엄격하게 고른 평가야. MMLU Pro는 과학만 보는 게 아니라 business, economics, law, philosophy, history까지 넓게 섞어. 반대로 코딩 에이전트 성능은 SWE-bench VerifiedTerminal-Bench 쪽이 더 가까워. MMLU Pro가 높다고 해서 터미널에서 테스트를 고치고 PR까지 마무리한다는 뜻은 아니야.