General

MMLU

Massive Multitask Language Understanding — 57 subjects spanning STEM, humanities, and social sciences.

Source

92Models

92.5Top score

81.2Median

State of the art over time

Each point is a model at its release date; the line traces the best score to date.

Ranking

1	GPT-5OpenAI	92.5
2	o1OpenAI	92
3	o1-previewOpenAI	90.8
4	DeepSeek-R1DeepSeek	90.8
5	GPT-4.5OpenAI	90.8
6	Claude 3.5 SonnetAnthropic	90.4
7	Kimi K2 0905Moonshot AI	90.2
8	GPT-4.1OpenAI	90.2
9	gpt-oss-120bOpenAI	90
10	Kimi K2-Instruct-0905Moonshot AI	89.5
11	Kimi K2 InstructMoonshot AI	89.5
12	Kimi K2Moonshot AI	89.5
13	Claude Opus 4Anthropic	88.8
14	GPT-4oOpenAI	88.7
15	Llama 3.1 405BMeta	88.6
16	DeepSeek-V3DeepSeek	88.5
17	Claude Sonnet 4Anthropic	88
18	Kimi K2 BaseMoonshot AI	87.8
19	Qwen3 235B A22BAlibaba	87.8
20	GPT-4.1 MiniOpenAI	87.5
21	Grok-2xAI	87.5
22	Kimi-k1.5Moonshot AI	87.4
23	Llama 3.1 405B InstructMeta	87.3
24	Gemini 2.0 FlashGoogle	87
25	o3-miniOpenAI	86.9
26	Claude 3 OpusAnthropic	86.8
27	GPT-4 TurboOpenAI	86.5
28	GPT-4OpenAI	86.4
29	Grok-2 minixAI	86.2
30	Claude 3.7 SonnetAnthropic	86.1
31	Qwen2.5 72BAlibaba	86.1
32	Llama 3.2 90B InstructMeta	86
33	Llama 3.3 70B InstructMeta	86
34	Llama 3.3 70BMeta	86
35	Nova ProAmazon	85.9
36	Gemini 1.5 ProGoogle	85.9
37	Llama 4 MaverickMeta	85.5
38	gpt-oss-20bOpenAI	85.3
39	o1-miniOpenAI	85.2
40	Phi 4Microsoft	84.8
41	Mistral Large 2Mistral AI	84
42	Llama 3.1 70B InstructMeta	83.6
43	Qwen2.5 32B InstructAlibaba	83.3
44	Qwen2 72B InstructAlibaba	82.3
45	GPT-4o-miniOpenAI	82
46	Grok-1.5xAI	81.3
47	Jamba 1.5 LargeAI21 Labs	81.2
48	Mistral Small 3.1 24B BaseMistral AI	81
49	Claude 3.5 HaikuAnthropic	80.9
50	Mistral Small 3 24B BaseMistral AI	80.7
51	Mistral Small 3.1 24B InstructMistral AI	80.6
52	Nova LiteAmazon	80.5
53	Mistral Small 3.2 24B InstructMistral AI	80.5
54	DeepSeek-V2.5DeepSeek	80.4
55	Llama 3.1 Nemotron 70B InstructNVIDIA	80.2
56	GPT-4.1 NanoOpenAI	80.1
57	Qwen2.5 14B InstructAlibaba	79.7
58	Llama 4 ScoutMeta	79.6
59	Claude 3 SonnetAnthropic	79
60	Phi-3.5-MoE-instructMicrosoft	78.9
61	Gemini 1.5 FlashGoogle	78.9
62	Claude 2Anthropic	78.5
63	Qwen2.5 VL 32B InstructAlibaba	78.4
64	Mixtral 8x22BMistral AI	77.8
65	Nova MicroAmazon	77.6
66	Command R+Cohere	75.7
67	Claude 3 HaikuAnthropic	75.2
68	Gemma 2 27BGoogle	75.2
69	Qwen2.5 Coder 32B InstructAlibaba	75.1
70	Llama 3.2 11B InstructMeta	73
71	Gemini 1.0 ProGoogle	71.8
72	Gemma 2 9BGoogle	71.3
73	Mixtral 8x7BMistral AI	70.6
74	Qwen2 7B InstructAlibaba	70.5
75	GPT-3.5 TurboOpenAI	70
76	Jamba 1.5 MiniAI21 Labs	69.7
77	Llama 3.1 8B InstructMeta	69.4
78	Pixtral-12BMistral AI	69.2
79	Phi-3.5-mini-instructMicrosoft	69
80	Mistral NeMo InstructMistral AI	68
81	Qwen2.5-Coder 7B InstructAlibaba	67.6
82	Phi 4 MiniMicrosoft	67.3
83	Granite 3.3 8B InstructIBM	65.5
84	Ministral 8B InstructMistral AI	65
85	Gemma 3n E4B Instructed LiteRT PreviewGoogle	64.9
86	Gemma 3n E4B InstructedGoogle	64.9
87	Granite 3.3 8B BaseIBM	63.9
88	Llama 3.2 3B InstructMeta	63.4
89	IBM Granite 4.0 Tiny PreviewIBM	60.4
90	Gemma 3n E2B Instructed LiteRT (Preview)Google	60.1
91	Gemma 3n E2B InstructedGoogle	60.1
92	Mistral 7BMistral AI	60.1

Related General benchmarks

Humanity’s Last Exam360 MMLU-Pro292 IFEval41 SimpleQA26 Arena Hard21 LiveBench13