AI BENCHY Compare

Compared models

Last updated at: 2026-05-26

Metric	Grok 4.20 Beta Grok 4.20 Beta medium Release: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Release: 2025-11-19	Hunter Alpha Hunter Alpha medium Release: 2026-03-11

Metric	Grok 4.20 Beta Grok 4.20 Beta medium Release: 2026-03-12	Grok 4.1 Fast Grok 4.1 Fast medium Release: 2025-11-19	Hunter Alpha Hunter Alpha medium Release: 2026-03-11
Score	8.5	6.5	6.7
Rank	#14	#88	#76
Reliability	N/A	10.0	N/A
Consistency	9.5	7.3	7.4
Tests Correct
Attempt pass rate	81.5%	61.4%	64.8%
Flaky tests	1	6	6
Total Runs	128	133	90
Cost per result	8.557	0.926	0.000
Total Cost	$1.198	$0.084	$0.000
Input Price	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
Output Price	$0.000 / 1M	$0.000 / 1M	$0.000 / 1M
Output Tokens	4,915	3,298	6,506
Reasoning Tokens	177,787	139,122	24,809
Response Time (avg)	9.75s	23.85s	10.33s
Response Time (max)	31.36s	121.79s	30.53s
Response Time (total)	175.48s	286.16s	175.58s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	8.7	7.9	91.7%	1		3.16s	268	7,583
Grok 4.1 Fast	8.7	7.9	91.7%	1		3.81s	108	4,741
Hunter Alpha	7.3	5.8	83.3%	2		4.75s	479	1,103

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		31.36s	81	3,987
Grok 4.1 Fast	2.3	1.1	33.3%	1		23.58s	821	6,703
Hunter Alpha	3.0	10.0	0.0%	0		0ms	0	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		20.93s	227	12,212
Grok 4.1 Fast	10.0	10.0	100.0%	0		37.64s	261	12,272
Hunter Alpha	4.7	1.6	66.7%	1		30.53s	792	3,456

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.01s	180	5,281
Grok 4.1 Fast	10.0	10.0	100.0%	0		6.63s	180	5,409
Hunter Alpha	10.0	10.0	100.0%	0		23.16s	1,488	8,017

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	5.3	10.0	33.3%	0		21.33s	251	40,255
Grok 4.1 Fast	5.8	4.4	66.7%	2		121.79s	11	37,657
Hunter Alpha	3.0	10.0	0.0%	0		10.52s	892	2,406

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		5.78s	72	3,440
Grok 4.1 Fast	4.2	9.9	0.0%	0		16.25s	127	3,456
Hunter Alpha	7.0	3.7	66.7%	1		6.44s	116	260

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	9.8	10.0	100.0%	0		4.89s	703	67,771
Grok 4.1 Fast	6.5	10.0	50.0%	0		4.63s	662	21,680
Hunter Alpha	9.9	10.0	100.0%	0		4.18s	208	465

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	10.0	10.0	100.0%	0		3.52s	2,950	31,874
Grok 4.1 Fast	5.3	7.2	44.4%	1		7.40s	853	30,338
Hunter Alpha	6.1	4.7	66.7%	2		5.35s	2,223	8,198

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	3.0	10.0	0.0%	0		12.39s	183	5,384
Grok 4.1 Fast	2.8	1.6	33.3%	1		27.71s	260	11,485
Hunter Alpha	10.0	10.0	100.0%	0		17.33s	308	904

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Grok 4.20 Beta	-	-	-	-	-	-	-	-
Grok 4.1 Fast	3.0	10.0	0.0%	0		25.52s	15	5,381
Hunter Alpha	-	-	-	-	-	-	-	-

Quick Compare

Switch Comparison Pair

Claude Opus 4.7mediumvsGPT-5.5low GPT-5.4mediumvsQwen3.7 Maxnone Gemini 3 Flash PreviewnonevsGrok Build 0.1medium DeepSeek V4 FlashhighFree AvailablevsMiMo-V2.5-Promedium Gemini 3.1 Flash Lite PreviewlowvsQwen3.5-Flashmedium Gemini 3.1 Flash LiteminimalvsKimi K2.5medium GPT-5.3 ChatnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewlowvsMiMo-V2.5-Promedium Gemini 3.1 Flash LitelowvsGLM 5.1medium gpt-oss-120bmediumFree AvailablevsQwen3.5-Flashnone Qwen3.7 MaxnonevsGLM 5 Turbomedium Gemini 3 Flash PreviewnonevsQwen3.6 Flashmedium