Reasoning

GPQA Diamond

Graduate-level, Google-proof Q&A in biology, physics, and chemistry written by domain experts.

Source

405Models

94.3Top score

65Median

State of the art over time

Each point is a model at its release date; the line traces the best score to date.

Ranking

1	Gemini 3.1 ProGoogle	94.3
2	Claude Opus 4.7Anthropic	94.2
3	Gemini 3 Deep ThinkGoogle	93.8
4	GPT-5.5OpenAI	93.5
5	GPT-5.2OpenAI	92.4
6	Qwen3.7 MaxAlibaba	92.3
7	Gemini 3.5 FlashGoogle	92.2
8	GPT-5.4OpenAI	92
9	Gemini 3 ProGoogle	91.9
10	GPT-5.3-CodexOpenAI	91.5
11	Claude Opus 4.6Anthropic	91.3
12	Grok 4.20 0309 v2xAI	91.1
13	Kimi K2.6Moonshot AI	91.1
14	Gemini 3 FlashGoogle	90.4
15	DeepSeek-V4-ProDeepSeek	90.1
16	Grok 4.3xAI	90.1
17	GPT-5.2-CodexOpenAI	89.9
18	DeepSeek-V4-FlashDeepSeek	89.4
19	Qwen3.5 397B A17BAlibaba	89.3
20	Qwen3.6 MaxAlibaba	88.8
21	Grok 4.20 0309xAI	88.5
22	Muse SparkMeta	88.4
23	Grok-4 HeavyxAI	88.4
24	GPT-5 ProOpenAI	88.4
25	Qwen3.6 PlusAlibaba	88.2
26	GPT-5.1OpenAI	88.1
27	Kimi K2.5Moonshot AI	87.9
28	o3OpenAI	87.7
29	Grok 4xAI	87.5
30	Claude Sonnet 4.6Anthropic	87.5
31	GPT-5.4 miniOpenAI	87.5
32	MiniMax M2.7MiniMax	87.4
33	GPT-5OpenAI	87.3
34	DeepSeek V3.2 SpecialeDeepSeek	87.1
35	MiMo-V2-ProXiaomi	87
36	Claude Opus 4.5Anthropic	87
37	GLM 5.1Zhipu AI	86.8
38	Hy3Tencent	86.7
39	MiMo-V2.5-ProXiaomi	86.6
40	Gemini 2.5 Pro Preview 06-05Google	86.4
41	Qwen3 Max ThinkingAlibaba	86.1
42	GPT-5.1-CodexOpenAI	86
43	GLM-5Zhipu AI	86
44	GLM 4.7Zhipu AI	85.9
45	Qwen3.5-27BAlibaba	85.8
46	Qwen3.5-122B-A10BAlibaba	85.7
47	Gemma 4 31BGoogle	85.7
48	Ring-2.6-1TInclusionAI	85.7
49	Grok 4 FastxAI	85.7
50	MiMo-V2-Omni-0327Xiaomi	85.5
51	KAT-Coder-Pro V2Kuaishou	85.5
52	Grok 4.1 FastxAI	85.3
53	Nanbeige4.1-3BNanbeige	84.9
54	MiMo-V2.5Xiaomi	84.9
55	MiniMax M2.5MiniMax	84.8
56	Claude 3.7 SonnetAnthropic	84.8
57	GLM 5 TurboZhipu AI	84.7
58	MiMo-V2-FlashXiaomi	84.6
59	Grok-3xAI	84.6
60	o3 ProOpenAI	84.5
61	Qwen3.5-35B-A3BAlibaba	84.5
62	Kimi K2 ThinkingMoonshot AI	84.5
63	Qwen3.6 27BAlibaba	84.2
64	Qwen3.6 35B A3BAlibaba	84.1
65	Grok-3 MinixAI	84
66	DeepSeek-V3.2DeepSeek	84
67	Gemini 2.5 ProGoogle	84
68	GPT-5 CodexOpenAI	83.7
69	Claude Sonnet 4.5Anthropic	83.4
70	Step 3.5 FlashStepFun	83.1
71	MiniMax M2.1MiniMax	83
72	JT-35B-FlashChina Mobile	82.9
73	MiMo-V2-OmniXiaomi	82.8
74	Gemini 2.5 FlashGoogle	82.8
75	Qwen3.5 Omni PlusAlibaba	82.6
76	Step 3.5 Flash 2603StepFun	82.6
77	GPT-5 miniOpenAI	82.3
78	Gemini 3.1 Flash LiteGoogle	82.2
79	GPT-5.4 nanoOpenAI	81.7
80	o4-miniOpenAI	81.4
81	GPT-5.1-Codex-MiniOpenAI	81.3
82	Qwen3-235B-A22B-Thinking-2507Alibaba	81.1
83	ERNIE 4.5 300B A47BBaidu	81.1
84	Nova 2 LiteAmazon	81.1
85	DeepSeek-R1-0528DeepSeek	81
86	GLM-4.6Zhipu AI	81
87	GLM 5V TurboZhipu AI	80.9
88	gpt-oss-120bOpenAI	80.9
89	Claude Opus 4.1Anthropic	80.9
90	Qwen3.5-9BAlibaba	80.6
91	NVIDIA Nemotron 3 Super 120B A12BNVIDIA	80
92	DeepSeek V3.2 ExpDeepSeek	79.9
93	Claude Opus 4Anthropic	79.6
94	EXAONE 4.5 33BLG AI Research	79.4
95	Gemini 2.5 FlashGoogle	79.3
96	DeepSeek V3.1 TerminusDeepSeek	79.2
97	Gemma 4 26B A4BGoogle	79.2
98	Grok 3 mini ReasoningxAI	79.1
99	GLM-4.5Zhipu AI	79.1
100	Qwen3 235B A22B 2507Alibaba	79
101	o1-proOpenAI	79
102	Nova 2.0 ProAmazon	78.5
103	K-EXAONELG AI Research	78.3
104	o1OpenAI	78
105	ERNIE 5.0 ThinkingBaidu	77.7
106	MiniMax-M2MiniMax	77.7
107	Qwen3-235B-A22B-Instruct-2507Alibaba	77.5
108	Ring-1TInclusionAI	77.4
109	Qwen3 VL 235B A22BAlibaba	77.2
110	Qwen3 Next 80B A3B ThinkingAlibaba	77.2
111	o3-miniOpenAI	77.2
112	Qwen3.5 4BAlibaba	77.1
113	Mercury 2Inception	77
114	Mistral Small 4Mistral AI	76.9
115	Cogito v2.1Deep Cogito	76.8
116	Kimi K2Moonshot AI	76.6
117	Doubao Seed CodeByteDance	76.4
118	KAT-Coder-Pro V1Kuaishou	76.4
119	Qwen3 MaxAlibaba	76.4
120	Command ACohere	76.1
121	INTELLECT-3Prime Intellect	76.1
122	Nova 2.0 OmniAmazon	76
123	Llama 3.1 Nemotron Ultra 253B v1NVIDIA	76
124	Qwen3-Next-80B-A3BAlibaba	75.9
125	Nemotron Cascade 2 30B A3BNVIDIA	75.8
126	Kimi K2 0905Moonshot AI	75.8
127	NVIDIA Nemotron 3 Nano 30B A3BNVIDIA	75.7
128	Claude Sonnet 4Anthropic	75.4
129	Trinity Large ThinkingArcee AI	75.2
130	Ling-2.6-1TInclusionAI	75.2
131	Kimi K2-Instruct-0905Moonshot AI	75.1
132	Kimi K2 InstructMoonshot AI	75.1
133	GLM 4.5 AirZhipu AI	75
134	DeepSeek-V3.1DeepSeek	74.9
135	Llama Nemotron Super 49B v1.5NVIDIA	74.8
136	Mistral Medium 3.5Mistral AI	74.8
137	Qwen3.5 Omni FlashAlibaba	74.2
138	Gemini 2.0 Flash ThinkingGoogle	74.2
139	EXAONE 4.0 32BLG AI Research	73.9
140	Magistral Medium 1.2Mistral AI	73.9
141	Sarvam 105BSarvam	73.8
142	Qwen3 Coder NextAlibaba	73.7
143	Qwen3 VL 32BAlibaba	73.3
144	Apriel-v1.6-15B-ThinkerServiceNow	73.3
145	o1-previewOpenAI	73.3
146	DeepSeek R1 ZeroDeepSeek	73.3
147	Claude Haiku 4.5Anthropic	73
148	Qwen3 Next 80B A3B InstructAlibaba	72.9
149	Hermes 4 - Llama-3.1 405BNous Research	72.7
150	Grok Code Fast 1xAI	72.7
151	Seed-OSS-36B-InstructByteDance	72.6
152	Qwen3 Omni 30B A3BAlibaba	72.6
153	Ring-flash-2.0InclusionAI	72.5
154	Solar Pro 3Upstage	72.4
155	Mi:dm K 2.5 ProKorea Telecom	72.2
156	Qwen3 VL 30B A3BAlibaba	72
157	Ling-1TInclusionAI	71.9
158	GLM 4.6VZhipu AI	71.9
159	gpt-oss-20bOpenAI	71.5
160	DeepSeek-R1DeepSeek	71.5
161	GPT-4.5OpenAI	71.4
162	Apriel-v1.5-15B-ThinkerServiceNow	71.3
163	K2 Think V2MBZUAI Institute of Foundation Models	71.3
164	Qwen3 VL 235B A22B InstructAlibaba	71.2
165	GPT-5 nanoOpenAI	71.2
166	Gemini 2.5 Flash-LiteGoogle	70.9
167	Magistral MediumMistral AI	70.8
168	Qwen3 30B A3B 2507Alibaba	70.7
169	GPT-4oOpenAI	70.1
170	Hermes 4 - Llama-3.1 70BNous Research	69.9
171	Llama 4 MaverickMeta	69.8
172	MiniMax M1 80kMiniMax	69.7
173	Motif-2-12.7B-ReasoningMotif Technologies	69.5
174	Qwen3 VL 30B A3B InstructAlibaba	69.5
175	Step3 VL 10BStepFun	69
176	Phi 4 Reasoning PlusMicrosoft	68.9
177	Solar Pro 2Upstage	68.7
178	DeepSeek-V3 0324DeepSeek	68.4
179	GLM 4.5VZhipu AI	68.4
180	MiniMax M1 40kMiniMax	68.2
181	Magistral Small 2506Mistral AI	68.2
182	K2-V2MBZUAI Institute of Foundation Models	68.1
183	Mistral Large 3Mistral AI	68
184	Magistral Medium 1Mistral AI	67.9
185	JT-MINIChina Mobile	67.6
186	Claude 3.5 SonnetAnthropic	67.2
187	Qwen3 VL 32B InstructAlibaba	67.1
188	Qwen3 32BAlibaba	66.8
189	Qwen3 4B 2507Alibaba	66.7
190	Llama-3.3 Nemotron Super 49B v1NVIDIA	66.7
191	Magistral Small 1.2Mistral AI	66.3
192	GPT-4.1OpenAI	66.3
193	Falcon-H1R-7BTII UAE	66.1
194	Qwen3 30B A3B 2507 InstructAlibaba	65.9
195	Phi 4 ReasoningMicrosoft	65.8
196	Qwen3 30B A3BAlibaba	65.8
197	Qwen3Alibaba	65.8
198	Ling-flash-2.0InclusionAI	65.7
199	Solar Open 100BUpstage	65.7
200	QwQ-32B-PreviewAlibaba	65.2
201	QwQ-32BAlibaba	65.2
202	DeepSeek R1 Distill Llama 70BDeepSeek	65.2
203	GPT-4.1 MiniOpenAI	65
204	Gemini 2.5 Flash LiteGoogle	64.6
205	Magistral Small 1Mistral AI	64.1
206	Nemotron Nano 9B V2NVIDIA	64
207	LongCat Flash LiteLongCat	63.6
208	Sarvam 30BSarvam	63.3
209	Sonar ReasoningPerplexity	62.3
210	Gemini 2.0 ProGoogle	62.2
211	DeepSeek R1 Distill Qwen 32BDeepSeek	62.1
212	Gemini 2.0 FlashGoogle	62.1
213	Qwen3 Omni 30B A3B InstructAlibaba	62
214	Qwen3 Coder 480B A35B InstructAlibaba	61.8
215	HyperCLOVA X SEED ThinkNaver	61.5
216	DeepSeek R1 0528 Qwen3 8BDeepSeek	61.2
217	Olmo 3 32B ThinkAllen Institute for AI	61
218	Qwen3 14BAlibaba	60.4
219	Tri-21B-ThinkTrillion Labs	60.1
220	o1-miniOpenAI	60
221	Devstral 2Mistral AI	59.4
222	Ling-2.6-flashInclusionAI	59.3
223	Olmo 3.1 32B ThinkAllen Institute for AI	59.1
224	DeepSeek R1 Distill Qwen 14BDeepSeek	59.1
225	DeepSeek-V3DeepSeek	59.1
226	Gemini 1.5 ProGoogle	59.1
227	Qwen3 8BAlibaba	58.9
228	Mistral Medium 3.1Mistral AI	58.8
229	Qwen2.5 MaxAlibaba	58.7
230	GLM 4.7 FlashZhipu AI	58.1
231	Qwen3 VL 8BAlibaba	57.9
232	Sonar ProPerplexity	57.8
233	Mistral Medium 3Mistral AI	57.8
234	Gemma 4 E4BGoogle	57.6
235	NVIDIA Nemotron Nano 12B v2 VLNVIDIA	57.2
236	Ministral 3 14BMistral AI	57.2
237	Llama 4 ScoutMeta	57.2
238	NVIDIA Nemotron Nano 9B V2NVIDIA	57
239	Nova PremierAmazon	56.9
240	Ling-mini-2.0InclusionAI	56.2
241	Phi 4Microsoft	56.1
242	Grok-2xAI	56
243	Llama 3.1 Nemotron Nano 8B V1NVIDIA	54.1
244	Olmo 3.1 32B InstructAllen Institute for AI	53.9
245	Devstral Small 2Mistral AI	53.2
246	Reka Flash 3Reka AI	52.9
247	Qwen3 4BAlibaba	52.2
248	Phi 4 Mini ReasoningMicrosoft	52
249	Qwen3 4B 2507 InstructAlibaba	51.7
250	Llama 3.1 Tulu3 405BAllen Institute for AI	51.6
251	Olmo 3 7B ThinkAllen Institute for AI	51.6
252	Qwen3 Coder 30B A3B InstructAlibaba	51.6
253	Exaone 4.0 1.2BLG AI Research	51.5
254	Gemini 2.0 Flash LiteGoogle	51.5
255	NVIDIA Nemotron 3 Nano 4BNVIDIA	51.3
256	Grok-2 minixAI	51
257	Gemini 1.5 FlashGoogle	51
258	Llama 3.1 405B InstructMeta	50.7
259	Mistral Small 3.2Mistral AI	50.5
260	Pixtral LargeMistral AI	50.5
261	Llama 3.3 70B InstructMeta	50.5
262	Claude 3 OpusAnthropic	50.4
263	GPT-4.1 NanoOpenAI	50.3
264	Qwen2.5 32B InstructAlibaba	49.5
265	Qwen3 VL 4BAlibaba	49.4
266	Devstral MediumMistral AI	49.2
267	DeepSeek R1 Distill Qwen 7BDeepSeek	49.1
268	DeepSeek R1 Distill Llama 8BDeepSeek	49
269	Qwen2.5 72B InstructAlibaba	49
270	Mistral Large 2Mistral AI	48.6
271	Granite 4.1 30BIBM	48.1
272	Kimi K2 BaseMoonshot AI	48.1
273	GPT-4 TurboOpenAI	48
274	Qwen3 235B A22BAlibaba	47.5
275	LFM2-24B-A2BLiquid AI	47.4
276	GrokxAI	47.1
277	SonarPerplexity	47.1
278	Ministral 3 8BMistral AI	47.1
279	Nemotron 3 Nano Omni 30B A3B ReasoningNVIDIA	46.9
280	Nova ProAmazon	46.9
281	Llama 3.2 90B InstructMeta	46.7
282	Llama 3.1 Nemotron 70B InstructNVIDIA	46.5
283	Mistral Small 3Mistral AI	46.2
284	Mistral Small 3.2 24B InstructMistral AI	46.1
285	Qwen2.5 VL 32B InstructAlibaba	46
286	Mistral Small 3.1 24B InstructMistral AI	46
287	Qwen3.5 2BAlibaba	45.6
288	Qwen2.5 14B InstructAlibaba	45.5
289	Mistral Small 3.1Mistral AI	45.4
290	Mistral Small 3 24B InstructMistral AI	45.3
291	Devstral SmallMistral AI	43.4
292	Gemma 4 E2BGoogle	43.3
293	Granite 4.1 8BIBM	43.3
294	Gemma 3 27B InstructGoogle	42.8
295	Qwen3 VL 8B InstructAlibaba	42.7
296	Molmo2-8BAllen Institute for AI	42.5
297	Mistral SabaMistral AI	42.4
298	Qwen2 72B InstructAlibaba	42.4
299	Gemma 3 27BGoogle	42.4
300	Nova LiteAmazon	42
301	Llama 3.1 70B InstructMeta	41.7
302	Qwen2.5 Coder 32B InstructAlibaba	41.7
303	Sarvam MSarvam	41.6
304	Granite 4.0 H SmallIBM	41.6
305	Claude 3.5 HaikuAnthropic	41.6
306	Kimi Linear 48B A3B InstructMoonshot AI	41.2
307	Qwen2.5 TurboAlibaba	41
308	Gemma 3 12BGoogle	40.9
309	Llama 3.1 Nemotron Nano 4B v1.1NVIDIA	40.8
310	Gemini DiffusionGoogle	40.4
311	Claude 3 SonnetAnthropic	40.4
312	GPT-4o-miniOpenAI	40.2
313	Hermes 3 - Llama-3.1 70BNous Research	40.1
314	Olmo 3 7B InstructAllen Institute for AI	40
315	Nova MicroAmazon	40
316	Jamba Large 1.7AI21 Labs	39
317	Jamba 1.6 LargeAI21 Labs	38.7
318	Gemini 1.5 Flash 8BGoogle	38.4
319	DeepHermes 3 - Mistral 24BNous Research	38.2
320	Mistral SmallMistral AI	38.1
321	Llama 3 70B InstructMeta	37.9
322	Mistral Small 3.1 24B BaseMistral AI	37.5
323	Qwen3 VL 4B InstructAlibaba	37.1
324	Jamba 1.5 LargeAI21 Labs	36.9
325	Phi-3.5-MoE-instructMicrosoft	36.8
326	Qwen2.5 7B InstructAlibaba	36.4
327	Grok-1.5xAI	35.9
328	Ministral 3 3BMistral AI	35.8
329	GPT-4OpenAI	35.7
330	Qwen3 1.7BAlibaba	35.6
331	Mistral LargeMistral AI	35.1
332	Mistral MediumMistral AI	34.9
333	Gemma 3 12B InstructGoogle	34.9
334	LFM2 8B A1BLiquid AI	34.4
335	Mistral Small 3 24B BaseMistral AI	34.4
336	Claude 2Anthropic	34.4
337	LFM2.5-1.2B-ThinkingLiquid AI	33.9
338	Qwen2.5-Coder 7B InstructAlibaba	33.9
339	Granite 3.3 8BIBM	33.8
340	DeepSeek R1 Distill Qwen 1.5BDeepSeek	33.8
341	Granite 4.0 MicroIBM	33.6
342	Jamba Reasoning 3BAI21 Labs	33.3
343	Claude 3 HaikuAnthropic	33.3
344	Mixtral 8x22B InstructMistral AI	33.2
345	DBRX InstructDatabricks	33.1
346	Phi 4 Mini InstructMicrosoft	33.1
347	Claude InstantAnthropic	33
348	OLMo 2 32BAllen Institute for AI	32.8
349	Llama 3.2 11B InstructMeta	32.8
350	Llama 3.2 3B InstructMeta	32.8
351	LFM 40BLiquid AI	32.7
352	Llama 2 Chat 70BMeta	32.7
353	LFM2.5-1.2B-InstructLiquid AI	32.6
354	Jamba 1.5 MiniAI21 Labs	32.3
355	Command R+Cohere	32.3
356	Jamba 1.7 MiniAI21 Labs	32.2
357	Llama 2 Chat 13BMeta	32.1
358	Phi-3 Mini Instruct 3.8BMicrosoft	31.9
359	DeepSeek Coder V2 Lite InstructDeepSeek	31.9
360	Claude 2.1Anthropic	31.9
361	Phi-4-multimodal-instructMicrosoft	31.5
362	Granite 4.1 3BIBM	31.4
363	Qwen2.5-Omni-7BAlibaba	30.8
364	Gemma 3 4BGoogle	30.8
365	GPT-3.5 TurboOpenAI	30.8
366	LFM2 2.6BLiquid AI	30.6
367	Tiny Aya GlobalCohere	30.5
368	MiniCPM-V 4.6 1.3BOpenBMB	30.5
369	Phi-3.5-mini-instructMicrosoft	30.4
370	Llama 3.1 8B InstructMeta	30.4
371	Jamba 1.6 MiniAI21 Labs	30
372	Gemma 3n E4B InstructGoogle	29.6
373	Llama 3 8B InstructMeta	29.6
374	Mixtral 8x7B InstructMistral AI	29.2
375	Gemma 3 4B InstructGoogle	29.1
376	Qwen1.5 Chat 110BAlibaba	28.9
377	LFM2.5-VL-1.6BLiquid AI	28.9
378	OLMo 2 7BAllen Institute for AI	28.8
379	Granite 4.0 1BIBM	28.1
380	Gemini 1.0 ProGoogle	27.9
381	Apertus 70B InstructSwiss AI Initiative	27.2
382	DeepHermes 3 - Llama-3.1 8BNous Research	27
383	MiniCPM5-1BOpenBMB	26.9
384	Granite 4.0 H 1BIBM	26.3
385	Granite 4.0 350MIBM	26.1
386	Granite 4.0 H 350MIBM	25.7
387	Apertus 8B InstructSwiss AI Initiative	25.6
388	Qwen2 7B InstructAlibaba	25.3
389	Phi 4 MiniMicrosoft	25.2
390	Gemma 3n E2B Instructed LiteRT (Preview)Google	24.8
391	Gemma 3n E2B InstructedGoogle	24.8
392	Molmo 7B-DAllen Institute for AI	24
393	Qwen3 0.6BAlibaba	23.9
394	Gemma 3 1B InstructGoogle	23.7
395	Gemma 3n E4B Instructed LiteRT PreviewGoogle	23.7
396	Gemma 3n E4B InstructedGoogle	23.7
397	Qwen3.5 0.8BAlibaba	23.6
398	OpenChat 3.5OpenChat	23
399	Gemma 3n E2B InstructGoogle	22.9
400	LFM2 1.2BLiquid AI	22.8
401	Llama 2 Chat 7BMeta	22.7
402	Gemma 3 270MGoogle	22.4
403	Llama 3.2 1B InstructMeta	19.6
404	Gemma 3 1BGoogle	19.2
405	Mistral 7B InstructMistral AI	17.7

Related Reasoning benchmarks

BIG-Bench Hard28 DROP25 ARC-AGI-210