한 줄 정의

GPQA Diamond는 GPQA 안에서 더 엄격하게 고른 198문항짜리 과학 추론 벤치마크야. 생물학, 물리학, 화학의 대학원급 객관식 문제를 풀게 해서 언어 모델이 전문 지식과 추론을 얼마나 같이 쓰는지 봐.

이 이름이 모델 발표에 나오면 “과학 문제를 얼마나 잘 푸나”에 가까워. 저장소 이슈를 고치는 평가도 아니고, Terminal-Bench 2.0처럼 터미널에서 명령을 끝까지 실행하는 시험도 아니야.

어떻게 작동하나

원 논문 기준 GPQA는 Extended 546문항, main 448문항, Diamond 198문항으로 나뉘어. Diamond는 그중에서도 두 명의 같은 분야 전문가가 답에 동의하고, 다른 분야의 고급 비전문가들은 다수가 틀린 문제를 남긴 subset이야. 네지선다형이라 아무 생각 없이 찍으면 기준선은 25%야.

평가 방식은 단순해 보여. 모델에게 질문과 4개 선택지를 주고, 정답 선택지를 맞히는지 정확도로 계산해. 하지만 문제 자체는 검색으로 바로 찾기 어렵게 만들었고, 비전문가 검증자도 인터넷을 쓸 수 있는 조건에서 꽤 오래 풀어 봤다. 그래서 일반 상식 퀴즈라기보다 “전문 지식이 없는 사람이 검색만으로 버티기 어려운 과학 문제”에 가깝다.

모델 카드에서는 보통 GPQA, GPQA Diamond, Diamond 같은 이름으로 줄여 나온다. 예를 들어 Qwen3.6-35B-A3B 모델 카드는 Idavidrein/gpqa의 Diamond 평가 결과를 86으로 표시하고, 같은 카드 안에서 저장소 이슈 해결률 73.4와 SWE Bench Pro 49.5를 따로 둔다. 같은 표에 있어도 묻는 능력이 다르다는 뜻이야.

왜 중요한가

GPQA Diamond가 자주 보이는 이유는 과학 추론 점수를 한 줄로 보여 주기 좋아서야. MMLU류 지식 시험보다 더 좁고 어렵게 잡힌 과학 문제라서, 새 모델이 “대학원급 STEM 문제를 잘 푼다”고 주장할 때 근거로 자주 들어간다.

도입 판단에서도 쓸모가 있어. 사내 업무가 논문 읽기, 실험 계획 검토, 화학·생물학·물리학 문서 요약처럼 전문 분야에 닿아 있다면 GPQA Diamond 점수는 후보를 거르는 첫 신호가 될 수 있어. 반대로 코딩 에이전트, 웹 자동화, 문서 OCR, 한국어 고객 상담이 목적이면 이 점수만으로는 부족하다. 그때는 Eval(평가)을 따로 만들어야 해.

Qwen3.6-35B-A3B 기사에서 이 용어가 같이 나오는 것도 이 때문이야. 후보 기사들은 35B total / 3B active 모델이 코딩과 과학 추론 표에서 어떻게 보이는지 함께 보여 줘. 다만 GPQA Diamond가 높다고 해서 로컬 코딩 에이전트가 바로 저장소 이슈를 잘 고친다는 뜻은 아니야. 그건 qwen3.6 벤치마크 쪽에서 SWE-bench, Terminal-Bench, MCPMark를 따로 봐야 해.

실무 활용

  • Benchmark는 시험 규칙 전체를 가리키고, GPQA Diamond는 그중 과학 추론을 재는 특정 시험이야. 숫자를 볼 때는 먼저 어떤 benchmark인지부터 분리하면 돼.
  • Eval(평가)은 팀이 직접 만드는 검증 루프까지 포함해. 공개 Diamond 점수가 좋아도 사내 과학 문서 요약이나 코드 리뷰 품질은 별도 eval로 다시 확인해야 해.
  • Reasoning은 모델이 답을 계산하는 능력 자체를 말하고, 이 항목은 그 능력을 네지선다형 과학 문제로 재는 한 가지 방법이야.
  • Qwen3.6-35B-A3B 벤치마크는 같은 모델 카드 안의 코딩·터미널 지표를 읽는 항목이야. GPQA Diamond와 같이 보면 과학 문제 점수와 에이전트 작업 점수를 따로 볼 수 있어.

주의해서 볼 점

첫째, Diamond 수치는 선택 효과가 있어. 논문 표의 Diamond set에는 expert 81.3%, non-expert 22.1% 같은 값이 나오지만, 이건 더 엄격하게 걸러진 subset 위의 사람 기준선이야. 전체 GPQA 설명의 expert 65%, non-expert 34%와 같은 숫자로 섞으면 안 돼.

둘째, 답안 형식도 점수에 영향을 준다. Epoch AI는 답이 정해진 형식으로 나오지 않으면 점수를 주지 않는다고 설명해. 그러면 모델이 과학적으로 맞는 생각을 했더라도 출력 형식을 틀려 낮게 나올 수 있고, 반대로 형식을 잘 맞추는 프롬프트가 점수를 도와줄 수도 있어.

셋째, 문제 유출과 학습 노출을 조심해야 해. GPQA 쪽은 데이터셋 예시를 온라인에 그대로 공개하지 말라고 요청하고, 벤치마크 오염을 줄이기 위한 canary string도 넣었다. 공개 점수가 높아질수록 “진짜 추론이 좋아진 건지, 비슷한 문제를 본 건지”를 더 조심해서 봐야 해.