이 용어는 어디까지 신뢰할 수 있나요?

이 이름이 모델 카드에 나오면 “채팅이 자연스러운가”보다 “여러 분야의 객관식 문제를 같은 규칙으로 풀었을 때 얼마나 맞혔나”에 가까워. 2026년 Gemma 4 모델 카드도 MMLU Pro를 AIME 2026, LiveCodeBench v6, GPQA Diamond와 나란히 둬. 모델의 한쪽 성능을 보는 숫자지, 제품 전체 품질표는 아니야.

어떻게 작동하나

MMLU Pro는 텍스트 질문과 선택지를 주고, 모델이 정답 문자를 고르게 해. Hugging Face의 TIGER-Lab/MMLU-Pro 카드 기준으로 default subset은 12.1k rows이고, test split은 12k rows야. 데이터셋 요약 표는 총 12,032문항을 14개 discipline으로 나눠 보여 줘. Math 1,351문항, Physics 1,299문항, Chemistry 1,132문항, Law 1,101문항처럼 분야별 수가 고정돼 있어서, 전체 평균만 보지 말고 분야별 점수도 같이 보는 편이 좋아.

기존 MMLU와 갈리는 지점은 세 가지야.

선택지: 원래 4지선다였던 문제를 보통 10지선다로 늘려서 찍기 기준을 25%에서 10% 수준으로 낮췄어.
문제 난도: 지식만 기억하면 되는 쉬운 질문을 줄이고 추론 중심 문제를 늘렸어.
검토 과정: 선택지를 늘릴 때 GPT-4로 그럴듯한 오답을 만들고, 10명 넘는 전문가 검토를 거쳐 문제와 선택지를 다시 봤다고 데이터셋 카드가 설명해.

평가 설정도 같이 읽어야 해. Hugging Face leaderboard 설명은 보통 5-shot을 쓰지만 일부 Gemini 모델은 0-shot이라고 적어. 또 MMLU Pro에서는 Chain-of-Thought 방식이 직접 답만 고르는 방식보다 유리하게 나올 수 있어. 같은 모델이라도 0-shot인지 5-shot인지, CoT인지 Direct인지가 다르면 점수를 바로 비교하면 안 돼.

왜 중요한가

MMLU Pro가 계속 등장하는 이유는 기존 MMLU 점수가 상위 모델 사이에서 점점 덜 갈라졌기 때문이야. 논문 초록은 MMLU-Pro가 MMLU보다 정확도를 16%~33% 낮추면서도 모델 차이를 더 잘 드러낸다고 설명해. 어렵게 만들었다는 말이 그냥 분위기 표현이 아니라, 같은 모델이 더 낮은 점수를 받도록 문제와 선택지를 조정했다는 뜻이야.

프롬프트 안정성도 이 벤치마크가 강조하는 부분이야. 논문은 24개 prompt style을 시험했을 때 MMLU에서는 점수 민감도가 4%~5%였지만, MMLU-Pro에서는 2%로 줄었다고 적어. 발표 자료에서 이 숫자가 보이면 “이 모델이 아무 프롬프트에서나 완벽하다”가 아니라, 이 평가셋 안에서는 프롬프트 표현 차이에 덜 흔들리게 설계했다는 정도로 읽는 게 맞아.

실무에서는 후보 모델을 처음 좁힐 때 도움이 돼. 예를 들어 Google Gemma 4 모델 카드는 MMLU Pro에서 31B 85.2%, 26B A4B 82.6%, E4B 69.4%, E2B 60.0%, Gemma 3 27B no think 67.6%를 제시해. 이 표만 보면 31B와 26B A4B 쪽이 강해 보이지만, 실제 선택은 추론 비용, 컨텍스트 윈도우, 한국어 업무 샘플, 도구 호출 실패율을 따로 재야 해.

주의해서 볼 점

MMLU Pro는 좋은 필터지만 전부는 아니야. 영어 텍스트 객관식 문제라서, 이미지 이해, 오디오 입력, 장기 도구 사용, 저장소 패치, 사내 문서 검색 품질을 직접 재지 않아. 그래서 SWE-bench Verified나 Terminal-Bench 점수와 같은 뜻으로 섞으면 바로 이상해져.

데이터셋 버전도 봐야 해. Hugging Face 업데이트 로그에는 2024년에 정답 수정과 수식 typo 수정이 여러 번 있었고, 2026년 1월에는 chemistry, physics 같은 STEM subset의 leading space issue가 수정됐다고 남아 있어. 그 공백 문제가 shortcut으로 악용될 수 있었다는 설명까지 붙어 있더라. 그래서 논문 점수, leaderboard 점수, 모델 카드 점수를 비교할 때는 실행 날짜와 데이터셋 revision을 같이 남기는 편이 덜 헷갈려.

그리고 CoT 숫자는 조심해서 읽어야 해. MMLU Pro에서 CoT가 Direct보다 높게 나오는 건 문제들이 단계적 풀이를 더 요구한다는 신호야. 하지만 실제 서비스에서 모델의 내부 추론을 길게 출력하게 만들라는 뜻은 아니야. 운영에서는 정답률, 지연 시간, 토큰 비용, 실패 케이스 로그를 같이 봐야 한다. 숫자는 숫자고 내 손에서 어떤지가 진짜야.

헷갈리기 쉬운 경계

MMLU와 MMLU Pro는 같은 계열이지만 같은 시험은 아니야. MMLU는 57개 subject의 넓은 지식 평가로 오래 쓰였고, MMLU Pro는 그 위에 난도와 오답 선택지를 더해 상위 모델을 더 잘 갈라 보려는 변형이야. 그래서 한 모델의 MMLU 90점과 MMLU Pro 80점을 같은 난이도의 점수처럼 놓으면 안 돼.

GPQA Diamond와도 역할이 달라. GPQA Diamond는 생물학, 물리학, 화학의 대학원급 과학 문제 198개를 더 엄격하게 고른 평가야. MMLU Pro는 과학만 보는 게 아니라 business, economics, law, philosophy, history까지 넓게 섞어. 반대로 코딩 에이전트 성능은 SWE-bench Verified나 Terminal-Bench 쪽이 더 가까워. MMLU Pro가 높다고 해서 터미널에서 테스트를 고치고 PR까지 마무리한다는 뜻은 아니야.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 4

MMLU Pro를 새 모델이나 Google 제품명이 아니라, 기존 MMLU를 더 어렵게 만든 텍스트 객관식 벤치마크로 잡았어.

독자 문제 대조: 본문 첫 문단에서 MMLU Pro를 모델 성능표에 붙는 benchmark로 설명하고, API나 모델 계열처럼 읽지 않게 범위를 좁혔어.
arXiv 초록은 MMLU-Pro가 mostly knowledge-driven MMLU를 확장하면서 reasoning-focused questions를 늘리고 선택지를 4개에서 10개로 확장했다고 설명해.
NeurIPS 2024 페이지는 같은 논문이 Datasets and Benchmarks Track에 실렸고 Spotlight로 공개됐다는 출판 맥락을 보여 줘.
Hugging Face 데이터셋 카드는 MMLU-Pro를 question answering, tabular text, English, MIT license 데이터셋으로 표시해.
GitHub 저장소는 논문 제목과 평가 스크립트, 캐시된 model predictions, leaderboard 연결을 제공하므로 본문의 재현 경로 설명과 맞아.

통과 교차 검증 검증 출처 5

논문, 데이터셋 카드, 저장소, Google 모델 카드를 나눠 보고 정의와 실제 모델 카드 사용 맥락을 분리했어.

비교 기준: arXiv와 NeurIPS는 연구 정의, Hugging Face는 공개 데이터와 leaderboard, GitHub는 실행 스크립트, Google 모델 카드는 실제 모델 발표에서 MMLU Pro가 점수 항목으로 쓰이는 사례로 봤어.
데이터셋 카드는 test split을 12k rows로, validation split을 70 rows로 표시하고, 전체 default subset을 12.1k rows로 보여 줘.
공개 카드의 dataset summary는 총 12,032문항을 Math 1,351, Physics 1,299, Chemistry 1,132, Law 1,101처럼 14개 discipline으로 나눠 적어.
Google Gemma 4 모델 카드는 Benchmark Results 표에서 MMLU Pro를 AIME 2026, LiveCodeBench v6, GPQA Diamond와 나란히 둬. 그래서 본문은 이 용어를 모델 카드의 한 평가 행으로도 읽게 했어.
후보 입력에 들어 있던 Google 출시 블로그들은 Gemma 4 문맥에는 맞지만, MMLU Pro 자체 정의는 논문·데이터셋·저장소가 더 직접적인 근거라 그쪽을 우선했어.

통과 수치 검증 검증 출처 4

문항 수, 선택지 수, 정확도 하락폭, 프롬프트 민감도, 모델 카드 점수를 원문 숫자와 다시 맞췄어.

논문 초록은 MMLU 대비 정확도가 16%~33% 낮아졌고, 24개 prompt style에서 민감도가 MMLU의 4%~5%에서 MMLU-Pro의 2%로 줄었다고 적어.
공식 카드의 FAQ는 원래 MMLU의 4개 선택지를 MMLU-Pro에서 10개로 늘렸고, random guessing 점수가 더 낮아진다고 설명해. 보통 10지선다면 찍기 기준은 10%야.
dataset summary 표는 총 12,032문항 중 Original MMLU 6,810문항과 Newly Added 5,222문항을 나눠 보여 줘.
construction 설명은 선택지 확장에 GPT-4를 쓰고, 10명 넘는 expert panel review를 거쳤다고 적어.
Google Gemma 4 모델 카드는 MMLU Pro 점수를 31B 85.2%, 26B A4B 82.6%, E4B 69.4%, E2B 60.0%, Gemma 3 27B no think 67.6%로 제시해.

통과 비판 검토 검증 출처 5

MMLU Pro 점수를 실무 품질 보장이나 모든 추론 능력의 대표값처럼 읽지 않게 한계를 분리했어.

MMLU Pro는 영어 텍스트 객관식 평가라서, 멀티모달 입력, 도구 호출, 코딩 저장소 수정, 장기 에이전트 실행을 직접 재지 않아.
Hugging Face 업데이트 로그에는 2024년 answer correction과 typo correction, 2026년 leading space issue 수정이 남아 있어. 같은 이름의 점수라도 데이터셋 시점과 실행 코드가 맞아야 해.
Hugging Face leaderboard 설명은 보통 5-shot을 쓰지만 일부 Gemini 모델은 0-shot이라고 적어. 그래서 shot 설정이 다른 점수를 같은 줄에 놓으면 해석이 거칠어져.
CoT가 MMLU-Pro에서 유리하다는 설명은 dataset 성격을 보여 주는 신호이지, 모든 제품 프롬프트에 긴 추론 출력을 붙이라는 뜻은 아니야.
Google 모델 카드의 MMLU Pro 점수는 Google 자체 모델 카드 숫자라서, 내부 업무 데이터나 한국어 자동화 품질까지 대신 검증하지 않아.

이 페이지의 결론은 MMLU Pro 점수를 버리라는 말이 아니라, 선택지 수, shot 설정, CoT 여부, 데이터셋 버전을 같이 적어야 비교가 된다는 쪽이야.

출처: arXiv - MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark , NeurIPS 2024 - MMLU-Pro abstract , Hugging Face - TIGER-Lab/MMLU-Pro , GitHub - TIGER-AI-Lab/MMLU-Pro , Google AI for Developers - Gemma 4 model card

MMLU Pro(엠엠엘유 프로)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

주의해서 볼 점

헷갈리기 쉬운 경계

관련 용어

이 항목을 참조하는 위키