AI BENCHY Compare

Google: Gemma 4 31B vs OpenAI: GPT-5 Mini

Last updated at: 2026-04-02

Metric	Gemma 4 31B Gemma 4 31B none Release: 2026-04-02	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07

Metric	Gemma 4 31B Gemma 4 31B none Release: 2026-04-02	GPT-5 Mini GPT-5 Mini medium Release: 2025-08-07
Score	6.7	6.8
Rank	#47	#45
Consistency	10.0	8.5
Tests Correct
Attempt pass rate	52.9%	58.8%
Flaky tests	0	3
Total Runs	51	51
Cost per result	0.023	1.473
Total Cost	$0.002	$0.118
Input Price	$0.140 / 1M	$0.250 / 1M
Output Price	$0.400 / 1M	$2.000 / 1M
Output Tokens	660	5,896
Reasoning Tokens	0	49,322
Response Time (avg)	2.55s	24.02s
Response Time (max)	4.68s	88.15s
Response Time (total)	38.20s	408.39s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	6.5	10.0	50.0%	0		1.85s	45	0
GPT-5 Mini	7.1	7.6	66.7%	1		13.86s	1,715	6,378

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5 Mini	10.0	10.0	100.0%	0		88.15s	754	11,520

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	0		2.25s	285	0
GPT-5 Mini	10.0	10.0	100.0%	0		12.58s	453	3,200

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	7.7	10.0	66.7%	0		3.22s	27	0
GPT-5 Mini	3.6	7.2	22.2%	1		44.63s	293	14,016

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	0		2.09s	117	0
GPT-5 Mini	4.5	10.0	0.0%	0		13.50s	349	1,856

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	6.5	10.0	50.0%	0		2.84s	78	0
GPT-5 Mini	8.0	6.6	83.3%	1		15.66s	318	4,992

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	5.5	10.0	33.3%	0		2.95s	108	0
GPT-5 Mini	5.6	9.8	33.3%	0		14.09s	1,527	5,760

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
GPT-5 Mini	10.0	10.0	100.0%	0		18.64s	487	1,600

Quick Compare

Switch Comparison Pair

GPT-5 MinimediumvsQwen3.5 Plus 2026-02-15none GPT-5 MinimediumvsGLM 5none Gemma 4 31BnonevsNemotron 3 SupermediumFree Available Gemma 4 31BnonevsGrok 4.1 Fastmedium Gemma 4 31BnonevsHunter Alphamedium Gemma 4 31BnonevsGPT-5.4 Minimedium Gemma 4 31BnonevsGrok 4.20medium GPT-5 MinimediumvsMiMo-V2-Omninone Gemma 4 31BnonevsMercury 2medium Claude Sonnet 4.6nonevsGPT-5 Minimedium Gemma 4 31BnonevsGPT-5 Nanomedium Gemma 4 31BnonevsKimi K2.5medium