AI BENCHY Compare

Google: Gemma 4 31B vs xAI: Grok 4.20

Last updated at: 2026-05-10

Metric	Gemma 4 31B Gemma 4 31B none Release: 2026-04-02 Free Available	Grok 4.20 Grok 4.20 medium Release: 2026-03-31

Metric	Gemma 4 31B Gemma 4 31B none Release: 2026-04-02 Free Available	Grok 4.20 Grok 4.20 medium Release: 2026-03-31
Score	6.9	6.9
Rank	#66	#68
Reliability	10.0	10.0
Consistency	10.0	8.3
Tests Correct
Attempt pass rate	52.6%	63.2%
Flaky tests	0	4
Total Runs	57	57
Cost per result	0.025	7.559
Total Cost	$0.003	$0.756
Input Price	$0.130 / 1M	$1.250 / 1M
Output Price	$0.380 / 1M	$2.500 / 1M
Output Tokens	1,371	1,784
Reasoning Tokens	0	128,233
Response Time (avg)	3.86s	14.53s
Response Time (max)	26.13s	63.48s
Response Time (total)	65.57s	276.06s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	6.5	10.0	50.0%	0		1.85s	45	0
Grok 4.20	8.2	7.9	83.3%	1		3.95s	287	8,312

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	0		26.13s	699	0
Grok 4.20	4.3	1.1	66.7%	1		24.33s	250	12,804

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Grok 4.20	10.0	10.0	100.0%	0		17.40s	232	9,556

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	0		2.25s	285	0
Grok 4.20	10.0	10.0	100.0%	0		4.17s	180	5,333

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	7.7	10.0	66.7%	0		3.22s	27	0
Grok 4.20	5.3	10.0	33.3%	0		27.03s	375	49,339

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	0		2.09s	117	0
Grok 4.20	3.9	2.6	33.3%	1		24.48s	65	6,440

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	6.5	10.0	50.0%	0		2.84s	78	0
Grok 4.20	7.3	6.0	83.3%	1		4.42s	40	5,474

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	6.5	10.0	33.3%	0		2.95s	108	0
Grok 4.20	7.7	10.0	66.7%	0		6.20s	149	7,913

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0
Grok 4.20	3.0	10.0	0.0%	0		13.68s	197	6,620

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemma 4 31B	3.0	10.0	0.0%	0		1.25s	12	0
Grok 4.20	3.0	10.0	0.0%	0		63.48s	9	16,442

Quick Compare

Switch Comparison Pair

DeepSeek V4 ProhighvsGrok 4.20medium DeepSeek V4 ProhighvsGemma 4 31BnoneFree Available Gemini 3.1 Flash LiteminimalvsGrok 4.20medium Gemma 4 31BnoneFree AvailablevsGPT-5 Minimedium Gemma 4 31BnoneFree AvailablevsKimi K2.5medium Gemma 4 31BnoneFree AvailablevsQwen3.6 27Bmedium GPT-5.5nonevsGrok 4.20medium Gemini 3.1 Flash LitenonevsGrok 4.20medium Gemma 4 31BnoneFree AvailablevsMiMo-V2-Omnimedium Qwen3.5 Plus 2026-02-15nonevsGrok 4.20medium Gemma 4 31BnoneFree AvailablevsGPT-5.4 Minimedium DeepSeek V3.2mediumvsGemma 4 31BnoneFree Available