Coding

SWE-bench Verified

Resolving real GitHub issues (human-verified subset) — an agentic software-engineering test.

51Models

87.6Top score

66Median

State of the art over time

Each point is a model at its release date; the line traces the best score to date.

Ranking

1	Claude Opus 4.7Anthropic	87.6
2	Claude Opus 4.5Anthropic	80.9
3	Claude Opus 4.6Anthropic	80.8
4	DeepSeek-V4-ProDeepSeek	80.6
5	Gemini 3.1 ProGoogle	80.6
6	GPT-5.2OpenAI	80
7	Claude Sonnet 4.6Anthropic	79.6
8	Gemini 3 FlashGoogle	78
9	GLM-5Zhipu AI	77.8
10	Claude Sonnet 4.5Anthropic	77.2
11	Gemini 3 ProGoogle	76.2
12	GPT-5OpenAI	74.9
13	GPT-5 CodexOpenAI	74.5
14	Claude Opus 4.1Anthropic	74.5
15	Claude Haiku 4.5Anthropic	73.3
16	Claude Sonnet 4Anthropic	72.7
17	Claude Opus 4Anthropic	72.5
18	Kimi K2 ThinkingMoonshot AI	71.3
19	Claude 3.7 SonnetAnthropic	70.3
20	MiniMax-M2MiniMax	69.4
21	o3OpenAI	69.1
22	o4-miniOpenAI	68.1
23	GLM-4.6Zhipu AI	68
24	DeepSeek V3.2 ExpDeepSeek	67.8
25	Gemini 2.5 Pro Preview 06-05Google	67.2
26	DeepSeek-V3.1DeepSeek	66
27	Kimi K2-Instruct-0905Moonshot AI	65.8
28	Kimi K2 InstructMoonshot AI	65.8
29	Kimi K2Moonshot AI	65.8
30	GLM-4.5Zhipu AI	64.2
31	Gemini 2.5 ProGoogle	63.8
32	gpt-oss-120bOpenAI	62.4
33	Gemini 2.5 FlashGoogle	60.4
34	GLM 4.5 AirZhipu AI	57.6
35	Qwen3-CoderAlibaba	55.4
36	GPT-4.1OpenAI	54.6
37	o3-miniOpenAI	49.3
38	Claude 3.5 SonnetAnthropic	49
39	DeepSeek-R1-0528DeepSeek	44.6
40	DeepSeek-V3DeepSeek	42
41	o1-previewOpenAI	41.3
42	o1OpenAI	41
43	Claude 3.5 HaikuAnthropic	40.6
44	GPT-4.5OpenAI	38
45	GPT-4oOpenAI	33.2
46	Gemini 2.5 Flash LiteGoogle	31.6
47	Llama 4 MaverickMeta	30
48	GPT-4.1 MiniOpenAI	23.6
49	Gemini DiffusionGoogle	22.9
50	DeepSeek-V2.5DeepSeek	16.8
51	GPT-4o-miniOpenAI	8.7

Related Coding benchmarks

LiveCodeBench282 HumanEval68 MBPP31 Aider Polyglot21 Terminal-Bench15 MultiPL-E12