AI BENCHY Compare

OpenAI: GPT-5 Mini vs xAI: Grok 4.20 Beta

Last updated at: 2026-03-12

Metric	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07	Grok 4.20 Beta Grok 4.20 Beta none Release: 2026-03-12

Metric	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07	Grok 4.20 Beta Grok 4.20 Beta none Release: 2026-03-12
Rank	#34	#52
Avg Score	6.0	4.4
Consistency	8.9	9.1
Cost per result	1.457	2.214
Total Cost	$0.117	$0.089
Tests Correct
Attempt pass rate	58.3%	33.3%
Flaky tests	2	2
Total Runs	48	48
Output Tokens	5,826	1,511
Reasoning Tokens	48,768	0
Response Time (avg)	25.14s	1.22s
Response Time (max)	88.15s	6.48s
Response Time (total)	402.29s	19.53s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	7.0	9.6	66.7%	0		16.45s	1,645	5,824
Grok 4.20 Beta	3.3	7.9	22.2%	1		562ms	245	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520
Grok 4.20 Beta	10.0	10.0	0.0%	0		6.48s	282	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	9.9	10.0	100.0%	0		12.58s	453	3,200
Grok 4.20 Beta	9.9	10.0	100.0%	0		601ms	197	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	10.0	7.2	22.2%	1		44.63s	293	14,016
Grok 4.20 Beta	10.0	10.0	0.0%	0		611ms	160	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	4.0	10.0	0.0%	0		13.50s	349	1,856
Grok 4.20 Beta	5.0	10.0	0.0%	0		541ms	87	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	7.5	6.6	83.3%	1		15.66s	318	4,992
Grok 4.20 Beta	4.5	10.0	0.0%	0		687ms	60	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	4.3	9.8	33.3%	0		14.09s	1,527	5,760
Grok 4.20 Beta	4.0	7.2	55.6%	1		541ms	291	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600
Grok 4.20 Beta	10.0	10.0	100.0%	0		4.79s	189	0

Quick Compare

Switch Comparison Pair

GPT-5 MinimediumvsGLM 5none GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none MiniMax M2.5mediumvsGrok 4.20 Betanone DeepSeek V3.2nonevsGPT-5 Minimedium gpt-oss-120bmediumFree AvailablevsGrok 4.20 Betanone Claude Sonnet 4.6nonevsGPT-5 Minimedium GPT-5 MinimediumvsQwen3.5-Flashnone Gemini 2.5 FlashnonevsGPT-5 Minimedium Mercury 2mediumvsGrok 4.20 Betanone Qwen3 Coder NextmediumvsGrok 4.20 Betanone GPT-5 MinimediumvsQwen3.5-122B-A10Bnone Gemini 3.1 Flash Lite PreviewnonevsGPT-5 Minimedium