General

Humanity’s Last Exam

A multi-modal benchmark at the frontier of human knowledge with 2,500 questions across dozens of subjects including mathematics, humanities, and natural sciences, created by nearly 1000 subject expert

Source

360Models

50.7Top score

6.4Median

State of the art over time

Each point is a model at its release date; the line traces the best score to date.

Ranking

1	Grok-4 HeavyxAI	50.7
2	Gemini 3.1 ProGoogle	44.4
3	GPT-5.5OpenAI	44.3
4	GPT-5 ProOpenAI	42
5	GPT-5.4OpenAI	41.6
6	Gemini 3.5 FlashGoogle	41
7	Gemini 3 Deep ThinkGoogle	41
8	Grok 4xAI	40
9	Muse SparkMeta	39.9
10	GPT-5.3-CodexOpenAI	39.9
11	Claude Opus 4.7Anthropic	39.6
12	Qwen3.7 MaxAlibaba	38.1
13	Gemini 3 ProGoogle	37.5
14	Claude Opus 4.6Anthropic	36.7
15	Kimi K2.6Moonshot AI	35.9
16	DeepSeek-V4-ProDeepSeek	35.9
17	GPT-5.2OpenAI	35.4
18	Grok 4.3xAI	35
19	Gemini 3 FlashGoogle	34.7
20	MiMo-V2.5-ProXiaomi	33.8
21	GPT-5.2-CodexOpenAI	33.5
22	KAT-Coder-Pro V1Kuaishou	33.4
23	Grok 4.20 0309 v2xAI	32.2
24	DeepSeek-V4-FlashDeepSeek	32.1
25	Grok 4.20 0309xAI	30
26	Claude Sonnet 4.6Anthropic	30
27	Kimi K2.5Moonshot AI	29.4
28	Qwen3.6 MaxAlibaba	28.9
29	Claude Opus 4.5Anthropic	28.4
30	MiMo-V2-ProXiaomi	28.3
31	MiniMax M2.7MiniMax	28.1
32	GLM 5.1Zhipu AI	28
33	Qwen3.5 397B A17BAlibaba	27.3
34	GLM-5Zhipu AI	27.2
35	GPT-5.4 miniOpenAI	26.6
36	GPT-5.4 nanoOpenAI	26.5
37	GPT-5.1OpenAI	26.5
38	Qwen3 Max ThinkingAlibaba	26.2
39	DeepSeek V3.2 SpecialeDeepSeek	26.1
40	Qwen3.6 PlusAlibaba	25.7
41	GPT-5 CodexOpenAI	25.6
42	Hy3Tencent	25.5
43	GLM 5 TurboZhipu AI	25.4
44	MiMo-V2.5Xiaomi	25.2
45	GLM 4.7Zhipu AI	25.1
46	GPT-5OpenAI	24.8
47	o3OpenAI	24.3
48	GPT-5.1-CodexOpenAI	23.4
49	Qwen3.5-122B-A10BAlibaba	23.4
50	Gemma 4 31BGoogle	22.7
51	Step 3.5 Flash 2603StepFun	22.6
52	Kimi K2 ThinkingMoonshot AI	22.3
53	MiniMax M2.1MiniMax	22.2
54	Qwen3.5-27BAlibaba	22.2
55	DeepSeek-V3.2DeepSeek	22.2
56	Gemini 2.5 Pro Preview 06-05Google	21.6
57	Qwen3.6 27BAlibaba	21.6
58	MiMo-V2-FlashXiaomi	21.1
59	MiMo-V2-Omni-0327Xiaomi	20.4
60	Qwen3.6 35B A3BAlibaba	20.2
61	Grok 4 FastxAI	20
62	MiMo-V2-OmniXiaomi	19.9
63	DeepSeek V3.2 ExpDeepSeek	19.8
64	Qwen3.5-35B-A3BAlibaba	19.7
65	NVIDIA Nemotron 3 Super 120B A12BNVIDIA	19.2
66	Step 3.5 FlashStepFun	19.1
67	MiniMax M2.5MiniMax	19.1
68	gpt-oss-120bOpenAI	19
69	Gemma 4 26B A4BGoogle	18.3
70	Ring-2.6-1TInclusionAI	18.3
71	Qwen3-235B-A22B-Thinking-2507Alibaba	18.2
72	Gemini 2.5 ProGoogle	17.8
73	DeepSeek-R1-0528DeepSeek	17.7
74	Grok 4.1 FastxAI	17.6
75	gpt-oss-20bOpenAI	17.3
76	Claude Sonnet 4.5Anthropic	17.3
77	GLM-4.6Zhipu AI	17.2
78	GPT-5.1-Codex-MiniOpenAI	16.9
79	GPT-5 miniOpenAI	16.7
80	Gemini 3.1 Flash LiteGoogle	16.2
81	KAT-Coder-Pro V2Kuaishou	16
82	DeepSeek-V3.1DeepSeek	15.9
83	GLM 5V TurboZhipu AI	15.8
84	Mercury 2Inception	15.5
85	DeepSeek V3.1 TerminusDeepSeek	15.2
86	Qwen3 235B A22B 2507Alibaba	15
87	Trinity Large ThinkingArcee AI	14.7
88	o4-miniOpenAI	14.7
89	GLM-4.5Zhipu AI	14.4
90	Qwen3.5 Omni PlusAlibaba	13.9
91	Doubao Seed CodeByteDance	13.3
92	Qwen3.5-9BAlibaba	13.3
93	K-EXAONELG AI Research	13.1
94	Mistral Medium 3.5Mistral AI	12.8
95	Gemini 2.5 FlashGoogle	12.7
96	ERNIE 5.0 ThinkingBaidu	12.7
97	MiniMax-M2MiniMax	12.5
98	o3-miniOpenAI	12.3
99	INTELLECT-3Prime Intellect	12.1
100	Apriel-v1.5-15B-ThinkerServiceNow	12
101	Claude Opus 4.1Anthropic	11.9
102	Qwen3 235B A22BAlibaba	11.7
103	Qwen3-Next-80B-A3BAlibaba	11.7
104	Claude Opus 4Anthropic	11.7
105	EXAONE 4.5 33BLG AI Research	11.6
106	Nemotron Cascade 2 30B A3BNVIDIA	11.4
107	Command ACohere	11.4
108	Grok 3 mini ReasoningxAI	11.1
109	Qwen3 MaxAlibaba	11.1
110	Cogito v2.1Deep Cogito	11
111	Gemini 2.5 FlashGoogle	11
112	Nova 2 LiteAmazon	10.9
113	Falcon-H1R-7BTII UAE	10.8
114	Qwen3-235B-A22B-Instruct-2507Alibaba	10.6
115	GLM 4.5 AirZhipu AI	10.6
116	EXAONE 4.0 32BLG AI Research	10.5
117	Hermes 4 - Llama-3.1 405BNous Research	10.3
118	Claude 3.7 SonnetAnthropic	10.3
119	Ring-1TInclusionAI	10.2
120	Step3 VL 10BStepFun	10.2
121	NVIDIA Nemotron 3 Nano 30B A3BNVIDIA	10.2
122	Qwen3 VL 235B A22BAlibaba	10.1
123	Sarvam 105BSarvam	10.1
124	Solar Pro 3Upstage	10.1
125	Nanbeige4.1-3BNanbeige	10
126	Qwen3 30B A3B 2507Alibaba	9.8
127	Apriel-v1.6-15B-ThinkerServiceNow	9.8
128	K2-V2MBZUAI Institute of Foundation Models	9.8
129	Claude Haiku 4.5Anthropic	9.7
130	Qwen3 VL 32BAlibaba	9.6
131	Magistral Medium 1.2Mistral AI	9.6
132	Claude Sonnet 4Anthropic	9.6
133	Magistral Medium 1Mistral AI	9.5
134	K2 Think V2MBZUAI Institute of Foundation Models	9.5
135	Mistral Small 4Mistral AI	9.5
136	Qwen3 Coder NextAlibaba	9.3
137	DeepSeek-R1DeepSeek	9.3
138	Solar Open 100BUpstage	9.2
139	Seed-OSS-36B-InstructByteDance	9.1
140	Magistral MediumMistral AI	9
141	Ring-flash-2.0InclusionAI	8.9
142	Nova 2.0 ProAmazon	8.9
143	GLM 4.6VZhipu AI	8.9
144	Mi:dm K 2.5 ProKorea Telecom	8.8
145	Qwen3 VL 30B A3BAlibaba	8.7
146	GPT-5 nanoOpenAI	8.7
147	Qwen3 32BAlibaba	8.3
148	MiniMax M1 80kMiniMax	8.2
149	Motif-2-12.7B-ReasoningMotif Technologies	8.2
150	QwQ-32BAlibaba	8.2
151	Ling-2.6-1TInclusionAI	8.2
152	Llama 3.1 Nemotron Ultra 253B v1NVIDIA	8.1
153	Hermes 4 - Llama-3.1 70BNous Research	7.9
154	Sonar ProPerplexity	7.9
155	Qwen3.5 4BAlibaba	7.8
156	o1OpenAI	7.7
157	MiniMax M1 40kMiniMax	7.5
158	Grok Code Fast 1xAI	7.5
159	Qwen3 Omni 30B A3BAlibaba	7.3
160	SonarPerplexity	7.3
161	Qwen3 Next 80B A3B InstructAlibaba	7.3
162	Magistral Small 1Mistral AI	7.2
163	Ling-1TInclusionAI	7.2
164	Qwen3.5 Omni FlashAlibaba	7.1
165	Gemini 2.0 Flash ThinkingGoogle	7.1
166	GLM 4.7 FlashZhipu AI	7.1
167	Sarvam 30BSarvam	7
168	Solar Pro 2Upstage	7
169	Kimi K2Moonshot AI	7
170	Qwen3 30B A3B 2507 InstructAlibaba	6.8
171	Gemini 2.0 ProGoogle	6.8
172	Llama Nemotron Super 49B v1.5NVIDIA	6.8
173	LFM2.5-1.2B-InstructLiquid AI	6.8
174	Nova 2.0 OmniAmazon	6.8
175	Gemini 2.5 Flash-LiteGoogle	6.6
176	DBRX InstructDatabricks	6.6
177	JT-MINIChina Mobile	6.6
178	Qwen3 30B A3BAlibaba	6.6
179	Llama-3.3 Nemotron Super 49B v1NVIDIA	6.5
180	Granite 4.0 H 350MIBM	6.4
181	Qwen3 VL 30B A3B InstructAlibaba	6.4
182	Ling-flash-2.0InclusionAI	6.3
183	Kimi K2 0905Moonshot AI	6.3
184	Qwen3 VL 235B A22B InstructAlibaba	6.3
185	Qwen3 VL 32B InstructAlibaba	6.3
186	Ling-2.6-flashInclusionAI	6.2
187	JT-35B-FlashChina Mobile	6.1
188	Tri-21B-ThinkTrillion Labs	6.1
189	LFM2.5-1.2B-ThinkingLiquid AI	6.1
190	Magistral Small 1.2Mistral AI	6.1
191	DeepSeek R1 Distill Llama 70BDeepSeek	6.1
192	LongCat Flash LiteLongCat	6
193	Olmo 3.1 32B ThinkAllen Institute for AI	6
194	Qwen3 4B 2507Alibaba	5.9
195	GLM 4.5VZhipu AI	5.9
196	Olmo 3 32B ThinkAllen Institute for AI	5.9
197	Llama 2 Chat 7BMeta	5.8
198	Exaone 4.0 1.2BLG AI Research	5.8
199	Olmo 3 7B InstructAllen Institute for AI	5.8
200	Qwen3 0.6BAlibaba	5.7
201	LFM2 1.2BLiquid AI	5.7
202	Granite 4.0 350MIBM	5.7
203	Olmo 3 7B ThinkAllen Institute for AI	5.7
204	DeepSeek R1 0528 Qwen3 8BDeepSeek	5.6
205	OLMo 2 7BAllen Institute for AI	5.5
206	Apertus 70B InstructSwiss AI Initiative	5.5
207	HyperCLOVA X SEED ThinkNaver	5.5
208	DeepSeek R1 Distill Qwen 32BDeepSeek	5.5
209	GPT-4.1OpenAI	5.4
210	DeepSeek Coder V2 Lite InstructDeepSeek	5.3
211	Nemotron 3 Nano Omni 30B A3B ReasoningNVIDIA	5.3
212	NVIDIA Nemotron Nano 12B v2 VLNVIDIA	5.3
213	Llama 3.2 1B InstructMeta	5.3
214	Ministral 3 3BMistral AI	5.3
215	Gemini 2.0 FlashGoogle	5.3
216	GPT-4oOpenAI	5.3
217	Qwen3 1.7BAlibaba	5.2
218	Gemma 3 1B InstructGoogle	5.2
219	Gemma 3 4B InstructGoogle	5.2
220	Tiny Aya GlobalCohere	5.2
221	LFM2 2.6BLiquid AI	5.2
222	Llama 3.2 11B InstructMeta	5.2
223	DeepSeek-V3 0324DeepSeek	5.2
224	Llama 3.2 3B InstructMeta	5.2
225	Qwen3 4BAlibaba	5.1
226	Qwen3 Omni 30B A3B InstructAlibaba	5.1
227	Granite 4.0 1BIBM	5.1
228	Molmo 7B-DAllen Institute for AI	5.1
229	Llama 3.1 Nemotron Nano 4B v1.1NVIDIA	5.1
230	LFM2.5-VL-1.6BLiquid AI	5.1
231	Reka Flash 3Reka AI	5.1
232	Jamba 1.5 MiniAI21 Labs	5.1
233	Llama 3 8B InstructMeta	5.1
234	Llama 3.1 8B InstructMeta	5.1
235	Gemini 2.5 Flash LiteGoogle	5.1
236	Granite 4.0 MicroIBM	5.1
237	Grok-3xAI	5.1
238	Llama 2 Chat 70BMeta	5
239	Ling-mini-2.0InclusionAI	5
240	Apertus 8B InstructSwiss AI Initiative	5
241	Granite 4.0 H 1BIBM	5
242	LFM 40BLiquid AI	4.9
243	Gemma 3n E4B InstructGoogle	4.9
244	Qwen3.5 2BAlibaba	4.9
245	Qwen3.5 0.8BAlibaba	4.9
246	MiniCPM-V 4.6 1.3BOpenBMB	4.9
247	Olmo 3.1 32B InstructAllen Institute for AI	4.9
248	LFM2 8B A1BLiquid AI	4.9
249	o1-miniOpenAI	4.9
250	Llama 3.2 90B InstructMeta	4.9
251	Gemini 1.5 ProGoogle	4.9
252	OpenChat 3.5OpenChat	4.8
253	Mistral Small 3.1Mistral AI	4.8
254	Gemma 3 12B InstructGoogle	4.8
255	NVIDIA Nemotron 3 Nano 4BNVIDIA	4.8
256	Gemma 4 E2BGoogle	4.8
257	QwQ-32B-PreviewAlibaba	4.8
258	Qwen2.5-Coder 7B InstructAlibaba	4.8
259	Command R+Cohere	4.8
260	Llama 4 MaverickMeta	4.8
261	Qwen3 4B 2507 InstructAlibaba	4.7
262	GrokxAI	4.7
263	Gemma 3 27B InstructGoogle	4.7
264	Llama 2 Chat 13BMeta	4.7
265	Nova PremierAmazon	4.7
266	Gemma 4 E4BGoogle	4.7
267	Nova MicroAmazon	4.7
268	Kimi K2-Instruct-0905Moonshot AI	4.7
269	Kimi K2 InstructMoonshot AI	4.7
270	MiniCPM5-1BOpenBMB	4.6
271	Jamba 1.6 MiniAI21 Labs	4.6
272	Jamba Reasoning 3BAI21 Labs	4.6
273	NVIDIA Nemotron Nano 9B V2NVIDIA	4.6
274	Nova LiteAmazon	4.6
275	Llama 3.1 Nemotron 70B InstructNVIDIA	4.6
276	Gemini 1.0 ProGoogle	4.6
277	Llama 3.1 70B InstructMeta	4.6
278	Ministral 3 14BMistral AI	4.6
279	Qwen2.5 MaxAlibaba	4.5
280	Mixtral 8x7B InstructMistral AI	4.5
281	Jamba 1.7 MiniAI21 Labs	4.5
282	Gemini 1.5 Flash 8BGoogle	4.5
283	Qwen3 VL 4BAlibaba	4.4
284	Qwen3 Coder 480B A35B InstructAlibaba	4.4
285	Phi-3 Mini Instruct 3.8BMicrosoft	4.4
286	Mistral SmallMistral AI	4.4
287	Molmo2-8BAllen Institute for AI	4.4
288	Phi-4-multimodal-instructMicrosoft	4.4
289	DeepSeek R1 Distill Qwen 14BDeepSeek	4.4
290	Llama 3 70B InstructMeta	4.4
291	Gemini 2.0 Flash LiteGoogle	4.4
292	Mistral Medium 3.1Mistral AI	4.4
293	LFM2-24B-A2BLiquid AI	4.4
294	Mistral Small 3.2Mistral AI	4.3
295	Mistral 7B InstructMistral AI	4.3
296	DeepHermes 3 - Llama-3.1 8BNous Research	4.3
297	Qwen3 14BAlibaba	4.3
298	Mistral Medium 3Mistral AI	4.3
299	Ministral 3 8BMistral AI	4.3
300	Llama 4 ScoutMeta	4.3
301	Qwen2.5 TurboAlibaba	4.2
302	Granite 3.3 8BIBM	4.2
303	Claude 2.1Anthropic	4.2
304	Granite 4.1 30BIBM	4.2
305	Gemma 3 270MGoogle	4.2
306	Llama 3.1 405B InstructMeta	4.2
307	Gemini 1.5 FlashGoogle	4.2
308	DeepSeek R1 Distill Llama 8BDeepSeek	4.2
309	Qwen2.5 72B InstructAlibaba	4.2
310	Qwen3 8BAlibaba	4.2
311	Phi 4 Mini InstructMicrosoft	4.2
312	Hermes 3 - Llama-3.1 70BNous Research	4.1
313	Mistral SabaMistral AI	4.1
314	Mixtral 8x22B InstructMistral AI	4.1
315	Phi 4Microsoft	4.1
316	Mistral Small 3Mistral AI	4.1
317	Mistral Large 3Mistral AI	4.1
318	Jamba 1.6 LargeAI21 Labs	4
319	Devstral SmallMistral AI	4
320	Gemma 3n E2B InstructGoogle	4
321	Jamba 1.5 LargeAI21 Labs	4
322	GPT-4o-miniOpenAI	4
323	Llama 3.3 70B InstructMeta	4
324	Qwen3 Coder 30B A3B InstructAlibaba	4
325	Mistral Large 2Mistral AI	4
326	DeepHermes 3 - Mistral 24BNous Research	3.9
327	Claude 3 HaikuAnthropic	3.9
328	GPT-4.1 NanoOpenAI	3.9
329	Claude 3.5 SonnetAnthropic	3.9
330	Claude InstantAnthropic	3.8
331	Devstral MediumMistral AI	3.8
332	Qwen2.5 32B InstructAlibaba	3.8
333	Claude 3 SonnetAnthropic	3.8
334	Qwen2.5 Coder 32B InstructAlibaba	3.8
335	Jamba Large 1.7AI21 Labs	3.8
336	Granite 4.1 8BIBM	3.8
337	Grok-2xAI	3.8
338	Qwen3 VL 4B InstructAlibaba	3.7
339	OLMo 2 32BAllen Institute for AI	3.7
340	Granite 4.0 H SmallIBM	3.7
341	Qwen2 72B InstructAlibaba	3.7
342	GPT-4.1 MiniOpenAI	3.7
343	Pixtral LargeMistral AI	3.6
344	Devstral 2Mistral AI	3.6
345	DeepSeek-V3DeepSeek	3.6
346	Llama 3.1 Tulu3 405BAllen Institute for AI	3.5
347	ERNIE 4.5 300B A47BBaidu	3.5
348	Claude 3.5 HaikuAnthropic	3.5
349	Mistral MediumMistral AI	3.4
350	Granite 4.1 3BIBM	3.4
351	Devstral Small 2Mistral AI	3.4
352	Nova ProAmazon	3.4
353	Mistral LargeMistral AI	3.4
354	Qwen3 VL 8BAlibaba	3.3
355	Sarvam MSarvam	3.3
356	DeepSeek R1 Distill Qwen 1.5BDeepSeek	3.3
357	GPT-4 TurboOpenAI	3.3
358	Claude 3 OpusAnthropic	3.1
359	Qwen3 VL 8B InstructAlibaba	2.9
360	Kimi Linear 48B A3B InstructMoonshot AI	2.7

Related General benchmarks

MMLU-Pro292 MMLU92 IFEval41 SimpleQA26 Arena Hard21 LiveBench13