Best AI Models for Coding

AI models ranked by coding ability using SWE-bench Verified, HumanEval, and BigCodeBench scores. Fallback to Arena Elo for unbenched models.

Last updated: just now

#1 Model

Grok 4.20 Beta

Score: 99.3

Average Score

77.8

Across all ranked models

Models Ranked

With benchmark data

Weights:SWE-bench Verified (40%)HumanEval (30%)BigCodeBench (30%)Fallback: Arena Elo

#	Model	Provider	Score	SWE-bench Verified	HumanEval	BigCodeBench	Arena Elo
1	Grok 4.20 Beta(fallback)xAI	xAI	99.3	--	--	--	99.3
2	Gemini 3.1 Pro Preview(fallback)Google	Google	98.7	--	--	--	98.7
3	GPT-5.2 Chat(fallback)OpenAI	OpenAI	96.8	--	--	--	96.8
4	Grok 4.1 Fast(fallback)xAI	xAI	95.5	--	--	--	95.5
5	GPT-5.1(fallback)OpenAI	OpenAI	92.7	--	--	--	92.7
6	Gemini 3 Flash PreviewGoogle	Google	92	--	92	--	--
7	Mistral LargeMistral AI	Mistral AI	92	--	92	--	--
8	Qwen3.5 397B A17B(fallback)Alibaba	Alibaba	91.7	--	--	--	91.7
9	Claude Opus 4.1(fallback)Anthropic	Anthropic	91.5	--	--	--	91.5
10	Grok 3xAI	xAI	90.5	--	90.5	--	--
11	GPT-4oOpenAI	OpenAI	90.2	--	90.2	--	--
12	Claude Haiku 4.5Anthropic	Anthropic	89.8	--	89.8	--	--
13	Gemini 3.1 Flash Lite Preview(fallback)Google	Google	89.5	--	--	--	89.5
14	Llama 4 MaverickMeta	Meta	89.5	--	89.5	--	--
15	Gemini 2.0 FlashGoogle	Google	89.4	--	89.4	--	--
16	Llama 3.3 70B InstructMeta	Meta	88.4	--	88.4	--	--
17	Claude 3.5 HaikuAnthropic	Anthropic	88.1	--	88.1	--	--
18	GPT-5 Chat(fallback)OpenAI	OpenAI	87.8	--	--	--	87.8
19	GPT-5.4OpenAI	OpenAI	87.5	80	97.5	--	--
20	DeepSeek V3.2 Exp(fallback)DeepSeek	DeepSeek	87.3	--	--	--	87.3
21	DeepSeek V3.2(fallback)DeepSeek	DeepSeek	87.2	--	--	--	87.2
22	GPT-4o-miniOpenAI	OpenAI	87.2	--	87.2	--	--
23	GPT-4 TurboOpenAI	OpenAI	87.1	--	87.1	--	--
24	Claude Opus 4.5Anthropic	Anthropic	87	80.9	95.2	--	--
25	Grok 4 Fast(fallback)xAI	xAI	87	--	--	--	87
26	Qwen3.5-122B-A10B(fallback)Alibaba	Alibaba	86.5	--	--	--	86.5
27	DeepSeek V3.1(fallback)DeepSeek	DeepSeek	86.5	--	--	--	86.5
28	DeepSeek V3.1 Terminus(fallback)DeepSeek	DeepSeek	86.2	--	--	--	86.2
29	GPT-5.2OpenAI	OpenAI	86.1	78	97	--	--
30	Qwen3 VL 235B A22B Instruct(fallback)Alibaba	Alibaba	86	--	--	--	86
31	Qwen3.5-27B(fallback)Alibaba	Alibaba	85	--	--	--	85
32	DeepSeek V3 0324DeepSeek	DeepSeek	84.5	--	84.5	--	--
33	GPT-5OpenAI	OpenAI	84.2	75	96.5	--	--
34	MiniMax M2.5(fallback)MiniMax	MiniMax	84	--	--	--	84
35	Claude Opus 4.6Anthropic	Anthropic	83.9	83.7	96	72.1	--
36	Qwen3 Next 80B A3B Instruct(fallback)Alibaba	Alibaba	83.7	--	--	--	83.7
37	LongCat Flash Chat(fallback)Meituan	Meituan	83.5	--	--	--	83.5
38	Qwen3.5-Flash(fallback)Alibaba	Alibaba	83.3	--	--	--	83.3
39	Qwen3.5-35B-A3B(fallback)Alibaba	Alibaba	83	--	--	--	83
40	Qwen3 VL 235B A22B Thinking(fallback)Alibaba	Alibaba	82.7	--	--	--	82.7
41	Phi 4Microsoft	Microsoft	82.6	--	82.6	--	--
42	DeepSeek V3DeepSeek	DeepSeek	82.6	--	82.6	--	--
43	Claude Opus 4Anthropic	Anthropic	82.1	72.5	95	--	--
44	GPT-5 Mini(fallback)OpenAI	OpenAI	81.8	--	--	--	81.8
45	Step 3.5 Flash(fallback)StepFun	StepFun	81.5	--	--	--	81.5
46	Claude 3.7 Sonnet (thinking)(fallback)Anthropic	Anthropic	81.3	--	--	--	81.3
47	o3OpenAI	OpenAI	81.1	69.1	97	--	--
48	Grok 4xAI	xAI	80.9	70	95.5	--	--
49	Claude 3.7 SonnetAnthropic	Anthropic	80.5	70.3	94	--	--
50	Llama 3.1 70B InstructMeta	Meta	80.5	--	80.5	--	--
51	Gemini 3 Pro PreviewGoogle	Google	80.3	68.5	96	--	--
52	o4 MiniOpenAI	OpenAI	79.6	68.1	95	--	--
53	Claude Sonnet 4.5Anthropic	Anthropic	79.4	68	94.5	--	--
54	Claude Sonnet 4.6Anthropic	Anthropic	78.9	74.6	95.2	68.4	--
55	Qwen3 Next 80B A3B Thinking(fallback)Alibaba	Alibaba	78.2	--	--	--	78.2
56	MiniMax M1(fallback)MiniMax	MiniMax	77.8	--	--	--	77.8
57	o3 Mini High(fallback)OpenAI	OpenAI	77.3	--	--	--	77.3
58	Grok 3 Mini Beta(fallback)xAI	xAI	76.3	--	--	--	76.3
59	Claude Sonnet 4Anthropic	Anthropic	75.9	62.5	93.8	--	--
60	gpt-oss-120b(fallback)OpenAI	OpenAI	75.8	--	--	--	75.8
61	Command A(fallback)Cohere	Cohere	75.7	--	--	--	75.7
62	MiniMax M2(fallback)MiniMax	MiniMax	74.7	--	--	--	74.7
63	Qwen3 8B(fallback)Alibaba	Alibaba	74.7	--	--	--	74.7
64	GPT-4o (2024-05-13)(fallback)OpenAI	OpenAI	74.3	--	--	--	74.3
65	Llama 3.3 Nemotron Super 49B V1.5(fallback)NVIDIA	NVIDIA	73.7	--	--	--	73.7
66	GPT-5 Nano(fallback)OpenAI	OpenAI	73	--	--	--	73
67	Nova 2 Lite(fallback)Amazon	Amazon	73	--	--	--	73
68	QwQ 32B(fallback)Alibaba	Alibaba	72.7	--	--	--	72.7
69	GPT-4o (2024-08-06)(fallback)OpenAI	OpenAI	72.5	--	--	--	72.5
70	Olmo 3.1 32B Instruct(fallback)Allen AI	Allen AI	71.8	--	--	--	71.8
71	GPT-4.1OpenAI	OpenAI	70.4	54.6	91.5	--	--
72	GPT-4o-mini (2024-07-18)(fallback)OpenAI	OpenAI	69.7	--	--	--	69.7
73	gpt-oss-20b(fallback)OpenAI	OpenAI	69.7	--	--	--	69.7
74	Gemma 2 27BGoogle	Google	69.5	--	69.5	--	--
75	Claude 3.5 SonnetAnthropic	Anthropic	69.2	50.8	93.7	--	--
76	Mistral Large 2407(fallback)Mistral AI	Mistral AI	69	--	--	--	69
77	Mercury(fallback)Inception	Inception	68.2	--	--	--	68.2
78	Olmo 3 32B Think(fallback)Allen AI	Allen AI	67.8	--	--	--	67.8
79	o1OpenAI	OpenAI	67.5	48.9	92.4	--	--
80	Qwen2.5 72B Instruct(fallback)Alibaba	Alibaba	67.2	--	--	--	67.2
81	Llama 3.1 Nemotron 70B Instruct(fallback)NVIDIA	NVIDIA	66.5	--	--	--	66.5
82	Olmo 3.1 32B Think(fallback)Allen AI	Allen AI	64.2	--	--	--	64.2
83	Gemini 2.5 ProGoogle	Google	63.8	63.8	--	--	--
84	Llama 3 70B Instruct(fallback)Meta	Meta	62.7	--	--	--	62.7
85	Gemini 2.5 FlashGoogle	Google	62.6	42	90	--	--
86	Qwen2.5 Coder 32B Instruct(fallback)Alibaba	Alibaba	61.8	--	--	--	61.8
87	Claude 3 Haiku(fallback)Anthropic	Anthropic	60.2	--	--	--	60.2
88	Command R+ (08-2024)(fallback)Cohere	Cohere	58.3	--	--	--	58.3
89	R1 0528DeepSeek	DeepSeek	57.6	57.6	--	--	--
90	Llama 3 8B Instruct(fallback)Meta	Meta	53.8	--	--	--	53.8
91	Llama 3.1 8B Instruct(fallback)Meta	Meta	52	--	--	--	52
92	o3 MiniOpenAI	OpenAI	49.3	49.3	--	--	--
93	R1DeepSeek	DeepSeek	49.2	49.2	--	--	--
94	Llama 3.2 3B Instruct(fallback)Meta	Meta	44.5	--	--	--	44.5
95	Llama 3.2 1B Instruct(fallback)Meta	Meta	35.2	--	--	--	35.2

How scores are calculated

Each model's score is a weighted average of its available benchmark results. When a model is missing some benchmarks, the weights are re-normalized across the benchmarks that are available. Models without any primary benchmark data fall back to Arena Elo (normalized to 0-100) and are marked accordingly. All scores are on a 0-100 scale. Data sourced from official model cards, published papers, and third-party evaluation platforms.

Other Specialty Leaderboards

Best for Math Best for Reasoning Best for Writing Best for Instructions Best for Data Analysis Best for Roleplay Best for Multilingual

Frequently Asked Questions

Based on our benchmark analysis, Grok 4.20 Beta by xAI is currently the #1 ranked model for coding, with a weighted score of 99.3/100.

Models are ranked using a weighted average of SWE-bench Verified, HumanEval, BigCodeBench benchmark scores. Models without primary benchmark data fall back to Arena Elo. All scores are normalized to a 0-100 scale.

We currently rank 95 models that have relevant benchmark data for coding tasks.