Benchmarks

			Leader
Arena Hard	General	21	Qwen3 235B A22B	95.6/100
Humanity’s Last Exam	General	360	Grok-4 Heavy	50.7/100
IFEval	General	41	o3-mini	93.9/100
LiveBench	General	13	o3-mini	84.6/100
MMLU	General	92	GPT-5	92.5/100
MMLU-Pro	General	292	Gemini 3 Pro	89.8/100
Multi-IF	General	11	Qwen3-235B-A22B-Thinking-2507	80.6/100
SimpleQA	General	26	DeepSeek V3.2 Exp	97.1/100