AI BENCHY Compare

Compared models

Summary

Gemma 4 31B vs Gemini 3 Flash Preview vs Gemini 3 PRO Preview vs Gemini 3.1 Pro Preview benchmark comparisonGemini 3 Flash Preview leads on Score with 9.6. Gemma 4 31B leads on Reliability with 10.0. Gemma 4 31B has the lowest Total Cost at $0.033. Gemini 3 PRO Preview is fastest at 9.05s.

Recommended model: Gemini 3 Flash Preview - It has the best score here (9.6), while responding about 1.5x faster than the other models in this comparison.

Last updated at: 2026-07-02

Metric	Gemma 4 31B Gemma 4 31B medium Release: 2026-04-02 Free Available	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Release: 2025-12-17	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Release: 2025-11-18	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19

Metric	Gemma 4 31B Gemma 4 31B medium Release: 2026-04-02 Free Available	Gemini 3 Flash Preview Gemini 3 Flash Preview medium Release: 2025-12-17	Gemini 3 PRO Preview Gemini 3 PRO Preview medium Release: 2025-11-18	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19
Score	6.3	9.6	6.2	9.2
Rank	#91	#2	#94	#7
Reliability	10.0	10.0	N/A	10.0
Consistency	9.4	9.7	10.0	10.0
Tests Correct
Attempt pass rate	69.8%	98.4%	66.7%	90.5%
Flaky tests	1	1	0	0
Total Runs	63	63	63	63
Cost per result	0.257	3.335	1.406	5.546
Total Cost	$0.033	$0.667	$0.385	$1.054
Input Price	$0.120 / 1M	$0.500 / 1M	$9.506 / 1M	$2.000 / 1M
Output Price	$0.350 / 1M	$3.000 / 1M	$9.506 / 1M	$12.000 / 1M
Total Input Tokens	17,957	37,017	28,848	41,617
Output Tokens	22,356	2,006	1,490	1,977
Reasoning Tokens	65,726	214,153	10,102	78,896
Response Time (avg)	56.55s	18.64s	9.05s	20.14s
Response Time (max)	437.40s	117.26s	26.24s	88.68s
Response Time (total)	1074.41s	391.35s	90.53s	281.92s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#91 Gemma 4 31B

medium

Cost: $0.002
Time: 45.7s
Tokens: 2,696 tok

#2 Gemini 3 Flash Preview

medium

Cost: $0.010
Time: 17.9s
Tokens: 3,236 tok

#94 Gemini 3 PRO Preview

medium

No endpoints found for google/gemini-3-pro-preview.

Cost: $0.000
Time: 0.1s
Tokens: 0 tok

#7 Gemini 3.1 Pro Preview

medium

Cost: $0.115
Time: 87.2s
Tokens: 9,629 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	12.89s	816	962	2,046
Gemini 3 Flash Preview	10.0	10.0	100.0%	3.88s	494	330	3,216
Gemini 3 PRO Preview	10.0	10.0	100.0%	14.99s	500	149	1,485
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	7.90s	498	112	3,218

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	4.3	5.8	22.2%	1	219.76s	5,568	11,098	33,212
Gemini 3 Flash Preview	8.6	7.6	88.9%	1	84.40s	8,122	462	161,084
Gemini 3 PRO Preview	3.0	10.0	0.0%	0	0ms	0	0	0
Gemini 3.1 Pro Preview	7.9	9.9	66.7%	0	40.17s	8,124	435	41,247

Combined	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	22.42s	12,873	351	10,485
Gemini 3 PRO Preview	3.0	10.0	0.0%	10.37s	13,211	351	952
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	40.61s	17,240	432	9,281

Data parsing and extraction	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	21.11s	8,334	1,822	2,951
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.43s	7,548	279	4,893
Gemini 3 PRO Preview	10.0	10.0	100.0%	10.84s	7,259	279	3,156
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	7.72s	7,265	279	3,904

Domain specific	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	7.7	10.0	66.7%	38.48s	876	4,349	8,985
Gemini 3 Flash Preview	10.0	10.0	100.0%	15.27s	633	12	21,684
Gemini 3 PRO Preview	5.3	10.0	33.3%	7.01s	643	15	1,195
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	32.73s	635	18	12,424

General Intelligence	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	9.57s	567	105	888
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.19s	486	72	1,905
Gemini 3 PRO Preview	10.0	10.0	100.0%	9.34s	486	78	374
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	11.77s	490	108	1,179

Instructions following	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	10.0	10.0	100.0%	12.76s	777	533	2,035
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.04s	615	72	2,709
Gemini 3 PRO Preview	9.8	10.0	100.0%	3.26s	623	69	754
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	9.56s	621	72	2,236

Puzzle Solving	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	9.9	10.0	100.0%	26.91s	801	1,795	5,595
Gemini 3 Flash Preview	10.0	10.0	100.0%	4.05s	558	183	4,365
Gemini 3 PRO Preview	10.0	10.0	100.0%	3.88s	570	225	1,215
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	6.90s	570	235	3,128

Tool Calling	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3 Flash Preview	10.0	10.0	100.0%	12.60s	5,532	234	1,487
Gemini 3 PRO Preview	10.0	10.0	100.0%	11.96s	5,556	324	971
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	23.15s	6,018	274	982

Trivia	Score	Consistency	Attempt pass rate	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemma 4 31B	3.0	10.0	0.0%	90.14s	218	1,692	10,014
Gemini 3 Flash Preview	10.0	10.0	100.0%	5.50s	156	11	2,325
Gemini 3 PRO Preview	3.0	10.0	0.0%	0ms	0	0	0
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	6.27s	156	12	1,297

Quick Compare

Switch Comparison Pair