Compared models

Recommended model Grok 4.20 (medium)

It has the strongest score in this comparison (7.1) and the best overall balance of cost and response time across all 3 models.

Detailed comparison

Metric	Grok 4.20 Grok 4.20 medium Release: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium Release: 2026-03-12	Grok 4.3 Grok 4.3 medium Release: 2026-05-01

Metric	Grok 4.20 Grok 4.20 medium Release: 2026-03-31	Grok 4.20 Beta Grok 4.20 Beta medium Release: 2026-03-12	Grok 4.3 Grok 4.3 medium Release: 2026-05-01
Score	7.1	6.0	7.1
Rank	#90	#152	#88
Reliability	10.0	N/A	10.0
Consistency	8.5	7.8	8.6
Tests Correct
Attempt pass rate	63.6%	66.7%	68.2%
Flaky tests	4	1	4
Total Runs	66	52	66
Cost per result	9.709	4.505	5.990
Total Cost	$0.777	$0.750	$0.779
Input Price	$1.250 / 1M	$5.805 / 1M	$1.250 / 1M
Output Price	$2.500 / 1M	$5.805 / 1M	$2.500 / 1M
Total Input Tokens	102,791	35,955	140,031
Output Tokens	5,363	1,647	13,739
Reasoning Tokens	253,977	91,565	227,682
Response Time (avg)	29.47s	9.75s	47.45s
Response Time (max)	199.66s	31.36s	216.69s
Response Time (total)	648.35s	175.48s	1043.83s

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

medium

medium

medium

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	8.2	7.9	83.3%	1	3.95s	2,010	287	8,312
Grok 4.20 Beta	8.7	7.9	91.7%	1	3.16s	2,010	268	7,583
Grok 4.3	10.0	10.0	100.0%	0	8.83s	2,010	88	8,207

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	6.3	6.6	55.6%	1	109.93s	8,307	268	103,150
Grok 4.20 Beta	3.3	3.3	33.3%	0	31.36s	360	81	3,987
Grok 4.3	5.9	7.7	44.4%	1	41.23s	8,340	1,028	31,226

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	8.7	6.9	83.3%	1	42.25s	71,267	3,776	44,009
Grok 4.20 Beta	5.0	5.0	50.0%	0	20.93s	12,909	227	12,212
Grok 4.3	6.5	10.0	50.0%	0	55.07s	108,468	11,992	21,601

Data parsing and extraction	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	10.0	10.0	100.0%	4.17s	7,761	180	5,333
Grok 4.20 Beta	10.0	10.0	100.0%	4.01s	7,761	180	5,281
Grok 4.3	10.0	10.0	100.0%	18.97s	7,761	180	9,546

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	5.3	10.0	33.3%	0	27.03s	1,764	375	49,339
Grok 4.20 Beta	5.3	10.0	33.3%	0	21.33s	1,764	251	40,255
Grok 4.3	5.3	7.2	44.4%	1	181.74s	1,764	14	111,300

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	3.9	2.6	33.3%	1	24.48s	825	65	6,440
Grok 4.20 Beta	10.0	10.0	100.0%	0	5.78s	825	72	3,440
Grok 4.3	5.4	2.5	66.7%	1	24.70s	825	70	5,020

Instructions following	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	9.8	10.0	100.0%	4.26s	1,362	57	6,419
Grok 4.20 Beta	9.8	10.0	100.0%	4.89s	1,362	57	7,123
Grok 4.3	9.8	10.0	100.0%	18.58s	1,362	57	8,713

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	7.7	10.0	66.7%	0	6.22s	1,689	149	7,913
Grok 4.20 Beta	10.0	10.0	100.0%	0	3.52s	1,689	328	6,300
Grok 4.3	5.9	7.2	55.6%	1	22.52s	1,689	128	14,468

Tool Calling	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	3.0	10.0	0.0%	13.68s	7,275	197	6,620
Grok 4.20 Beta	3.0	10.0	0.0%	12.39s	7,275	183	5,384
Grok 4.3	10.0	10.0	100.0%	17.66s	7,263	168	4,615

Trivia	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Grok 4.20	3.0	10.0	0.0%	63.48s	531	9	16,442
Grok 4.20 Beta	0.0	0.0	0.0%	0ms	0	0	0
Grok 4.3	3.0	10.0	0.0%	44.47s	549	14	12,986

Switch Comparison Pair