이 용어는 어디까지 신뢰할 수 있나요?

원 논문 기준 GPQA는 Extended 546문항, main 448문항, Diamond 198문항으로 나뉘어. Diamond는 그중에서도 두 명의 같은 분야 전문가가 답에 동의하고, 다른 분야의 고급 비전문가들은 다수가 틀린 문제를 남긴 subset이야. 네지선다형이라 아무 생각 없이 찍으면 기준선은 25%야.

평가 방식은 단순해 보여. 모델에게 질문과 4개 선택지를 주고, 정답 선택지를 맞히는지 정확도로 계산해. 하지만 문제 자체는 검색으로 바로 찾기 어렵게 만들었고, 비전문가 검증자도 인터넷을 쓸 수 있는 조건에서 꽤 오래 풀어 봤다. 그래서 일반 상식 퀴즈라기보다 “전문 지식이 없는 사람이 검색만으로 버티기 어려운 과학 문제”에 가깝다.

모델 카드에서는 보통 GPQA, GPQA Diamond, Diamond 같은 이름으로 줄여 나온다. 예를 들어 Qwen3.6-35B-A3B 모델 카드는 Idavidrein/gpqa의 Diamond 평가 결과를 86으로 표시하고, 같은 카드 안에서 저장소 이슈 해결률 73.4와 SWE Bench Pro 49.5를 따로 둔다. 같은 표에 있어도 묻는 능력이 다르다는 뜻이야.

왜 중요한가

GPQA Diamond가 자주 보이는 이유는 과학 추론 점수를 한 줄로 보여 주기 좋아서야. MMLU류 지식 시험보다 더 좁고 어렵게 잡힌 과학 문제라서, 새 모델이 “대학원급 STEM 문제를 잘 푼다”고 주장할 때 근거로 자주 들어간다.

도입 판단에서도 쓸모가 있어. 사내 업무가 논문 읽기, 실험 계획 검토, 화학·생물학·물리학 문서 요약처럼 전문 분야에 닿아 있다면 GPQA Diamond 점수는 후보를 거르는 첫 신호가 될 수 있어. 반대로 코딩 에이전트, 웹 자동화, 문서 OCR, 한국어 고객 상담이 목적이면 이 점수만으로는 부족하다. 그때는 Eval(평가)을 따로 만들어야 해.

Qwen3.6-35B-A3B 기사에서 이 용어가 같이 나오는 것도 이 때문이야. 후보 기사들은 35B total / 3B active 모델이 코딩과 과학 추론 표에서 어떻게 보이는지 함께 보여 줘. 다만 GPQA Diamond가 높다고 해서 로컬 코딩 에이전트가 바로 저장소 이슈를 잘 고친다는 뜻은 아니야. 그건 qwen3.6 벤치마크 쪽에서 SWE-bench, Terminal-Bench, MCPMark를 따로 봐야 해.

실무 활용

Benchmark는 시험 규칙 전체를 가리키고, GPQA Diamond는 그중 과학 추론을 재는 특정 시험이야. 숫자를 볼 때는 먼저 어떤 benchmark인지부터 분리하면 돼.
Eval(평가)은 팀이 직접 만드는 검증 루프까지 포함해. 공개 Diamond 점수가 좋아도 사내 과학 문서 요약이나 코드 리뷰 품질은 별도 eval로 다시 확인해야 해.
Reasoning은 모델이 답을 계산하는 능력 자체를 말하고, 이 항목은 그 능력을 네지선다형 과학 문제로 재는 한 가지 방법이야.
Qwen3.6-35B-A3B 벤치마크는 같은 모델 카드 안의 코딩·터미널 지표를 읽는 항목이야. GPQA Diamond와 같이 보면 과학 문제 점수와 에이전트 작업 점수를 따로 볼 수 있어.

주의해서 볼 점

첫째, Diamond 수치는 선택 효과가 있어. 논문 표의 Diamond set에는 expert 81.3%, non-expert 22.1% 같은 값이 나오지만, 이건 더 엄격하게 걸러진 subset 위의 사람 기준선이야. 전체 GPQA 설명의 expert 65%, non-expert 34%와 같은 숫자로 섞으면 안 돼.

둘째, 답안 형식도 점수에 영향을 준다. Epoch AI는 답이 정해진 형식으로 나오지 않으면 점수를 주지 않는다고 설명해. 그러면 모델이 과학적으로 맞는 생각을 했더라도 출력 형식을 틀려 낮게 나올 수 있고, 반대로 형식을 잘 맞추는 프롬프트가 점수를 도와줄 수도 있어.

셋째, 문제 유출과 학습 노출을 조심해야 해. GPQA 쪽은 데이터셋 예시를 온라인에 그대로 공개하지 말라고 요청하고, 벤치마크 오염을 줄이기 위한 canary string도 넣었다. 공개 점수가 높아질수록 “진짜 추론이 좋아진 건지, 비슷한 문제를 본 건지”를 더 조심해서 봐야 해.

이 항목을 참조하는 위키

포맷 v3 가이드 wiki 3.2.0

팩트 체크

통과 · 2026-05-07 KST

검증 생성: AI + 편집 검토 · 2026-05-07 상태: 통과

통과 원문 대조 검증 출처 6

GPQA 원 논문, 데이터셋 카드, 후보 Qwen 문맥을 대조해 GPQA Diamond의 정의와 언급 이유를 나눴어.

독자 문제 대조: 모델 발표의 GPQA Diamond 점수를 과학 추론 지표로 읽되, 코딩 에이전트 점수처럼 확대하지 않게 했어.
OpenReview 논문은 GPQA를 생물학, 물리학, 화학 전문가가 만든 448개 객관식 질문 데이터셋으로 설명해.
논문 표와 데이터셋 분할 설명은 GPQA Diamond를 198문항 subset으로 두고, 2/2 expert agreement와 비전문가 다수 오답 조건을 더 엄격한 기준으로 잡아.
Hugging Face의 Idavidrein/gpqa 카드는 GPQA를 전문가가 작성·검증한 biology, physics, chemistry 객관식 Q&A 데이터셋으로 설명하고 GitHub 저장소와 논문을 원천으로 연결해.
후보 Qwen 기사들은 Qwen3.6-35B-A3B 성능 문맥에서 GPQA Diamond를 꺼내므로, 본문은 benchmark 자체 설명과 Qwen 점수 해석을 분리했어.

통과 교차 검증 검증 출처 7

원 논문, Hugging Face 데이터셋, Epoch AI 평가 페이지, Qwen 모델 카드를 서로 맞대어 숫자와 범위를 확인했어.

비교 기준: 원 논문은 데이터셋 구성과 사람 기준선을, Epoch AI는 GPQA Diamond 평가 설정과 25% 무작위 기준선을, Qwen 모델 카드는 특정 모델의 공개 평가 점수를 제공해.
Epoch AI는 Diamond subset을 198문항으로 설명하고, 네지선다형이라 무작위 선택 기준이 25%라고 적어.
Qwen/Qwen3.6-35B-A3B 모델 카드는 Idavidrein/gpqa의 Diamond 평가 결과 86을 표시하지만, 같은 카드에서 Verified 73.4와 Terminalbench 2 51.5를 별도 항목으로 둬.
OfficeChai와 BuildFastWithAI는 Qwen3.6-35B-A3B 벤치마크 해설 기사라서, GPQA Diamond 자체의 원천 설명은 OpenReview·HF·Epoch 쪽을 우선했어.

통과 수치 검증 검증 출처 5

본문의 문항 수, 기준선, 비교 숫자를 원문과 공식 카드 기준으로 다시 확인했어.

GPQA 계열 문항 수는 Extended 546, main 448, Diamond 198로 맞췄어.
Diamond 조건은 2/2 expert agreement와 ≤1/3 non-expert correct로 확인했고, 본문에는 비전문가 다수 오답이라는 평어로 풀었어.
논문 표의 Diamond set 사람 기준선은 expert 81.3%, non-expert 22.1%이고, 전체 GPQA 설명의 넓은 기준선은 expert 65%, non-expert 34%, GPT-4 39%야.
네지선다형이므로 무작위 선택 기준은 25%로 확인했어.
Qwen 모델 카드의 평가 결과에는 Diamond 86, Verified 73.4, SWE Bench Pro 49.5가 따로 표시돼 있어.

통과 비판 검토 검증 출처 5

점수가 높다는 말을 과학 추론 전체나 실무 코딩 능력 보장으로 읽지 않게 제한했어.

GPQA Diamond는 과학 전문 지식과 추론을 묻는 객관식 평가라서, 소프트웨어 저장소 수정이나 도구 호출 능력을 직접 재지 않아.
Diamond set의 expert/non-expert accuracy는 필터링 뒤 subset 수치라 선택 효과가 있고, 논문도 해당 표에 별도 주석을 둬.
Epoch AI의 평가 방식은 답안 형식이 틀리면 0점이 될 수 있어, 모델의 과학 지식과 출력 포맷 준수를 함께 타는 숫자야.
Qwen 후보 문맥에서는 GPQA Diamond를 저장소 수정 평가, Terminal-Bench 2.0 같은 코딩·터미널 지표와 같은 성능 축으로 섞지 않게 했어.

이 페이지는 GPQA Diamond를 benchmark 개념으로 설명하고, 후보 기사에서 나온 Qwen 점수는 언급 이유를 보여 주는 보조 문맥으로만 다뤄.

출처: OpenReview - GPQA: A Graduate-Level Google-Proof Q&A Benchmark , COLM 2024 paper PDF - GPQA , Hugging Face - Idavidrein/gpqa , GitHub - idavidrein/gpqa , Epoch AI - GPQA Diamond , Hugging Face - Qwen/Qwen3.6-35B-A3B , OfficeChai - Qwen3.6-35B-A3B benchmarks , BuildFastWithAI - Qwen3.6-35B-A3B review , Pandaily - Alibaba open-sources Qwen3.6-35B-A3B

GPQA Diamond (지피큐에이 다이아몬드)

전체 AI 기술 맵에서의 위치

한 줄 정의

어떻게 작동하나

왜 중요한가

실무 활용

주의해서 볼 점

관련 용어

이 항목을 참조하는 위키