AI BENCHY Compare

OpenAI: GPT-5 Mini vs xAI: Grok Build 0.1

Last updated at: 2026-05-22

Metric	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07	Grok Build 0.1 Grok Build 0.1 none Release: 2026-05-21

Metric	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07	Grok Build 0.1 Grok Build 0.1 none Release: 2026-05-21
Score	6.9	6.6
Rank	#73	#82
Reliability	10.0	10.0
Consistency	8.7	8.0
Tests Correct
Attempt pass rate	60.0%	60.4%
Flaky tests	3	4
Total Runs	60	57
Cost per result	1.494	7.805
Total Cost	$0.150	$0.547
Input Price	$0.250 / 1M	$1.000 / 1M
Output Price	$2.000 / 1M	$2.000 / 1M
Output Tokens	6,636	267,275
Reasoning Tokens	63,722	0
Response Time (avg)	23.99s	28.69s
Response Time (max)	88.15s	138.35s
Response Time (total)	479.86s	459.00s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	7.1	7.6	66.7%	1		13.86s	1,715	6,378
Grok Build 0.1	8.7	7.9	91.7%	1		6.30s	11,162	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	10.0	10.0	100.0%	0		30.74s	580	12,544
Grok Build 0.1	10.0	10.0	100.0%	0		21.41s	16,568	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	10.0	10.0	100.0%	0		12.58s	453	3,200
Grok Build 0.1	4.7	1.6	66.7%	1		9.33s	6,359	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	3.6	7.2	22.2%	1		44.63s	293	14,016
Grok Build 0.1	3.6	7.2	22.2%	1		103.71s	179,469	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	4.5	10.0	0.0%	0		13.50s	349	1,856
Grok Build 0.1	4.3	10.0	0.0%	0		12.47s	6,647	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	7.9	6.5	83.3%	1		15.66s	318	4,992
Grok Build 0.1	9.8	10.0	100.0%	0		7.36s	8,970	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	5.6	9.8	33.3%	0		14.09s	1,527	5,760
Grok Build 0.1	6.4	7.7	55.6%	1		9.55s	14,982	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600
Grok Build 0.1	0.0	0.0	0.0%	0		0ms	0	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
GPT-5 Mini	3.0	10.0	0.0%	0		9.99s	160	1,856
Grok Build 0.1	3.0	10.0	0.0%	0		36.09s	23,118	0

Quick Compare

Switch Comparison Pair

Qwen3.6 27BmediumvsGrok Build 0.1none DeepSeek V4 ProhighvsGrok Build 0.1none Kimi K2.5mediumvsGrok Build 0.1none Gemini 3.1 Flash LiteminimalvsGrok Build 0.1none Claude Sonnet 4.6nonevsGPT-5 Minimedium GPT-5 MinimediumvsQwen3.6 Max Previewnone Gemma 4 31BnoneFree AvailablevsGPT-5 Minimedium Gemini 3.1 Flash LiteminimalvsGPT-5 Minimedium DeepSeek V4 ProhighvsGPT-5 Minimedium Ring-2.6-1TnonevsGPT-5 Minimedium Grok Build 0.1nonevsMiMo-V2-Omnimedium Mercury 2mediumvsGrok Build 0.1none