AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs Google: Gemma 4 31B

Summary

Gemini 3.1 Flash Lite Preview vs Gemma 4 31B benchmark comparison: Gemini 3.1 Flash Lite Preview leads on average score with 6.4 vs 6.1. Gemma 4 31B has the lower benchmark cost at $0.004 vs $0.018. Gemini 3.1 Flash Lite Preview is faster at 1.21s vs 4.05s, with pass rates of 60.3% vs 47.6%.

Recommended model: Gemma 4 31B - Its score stays close to the best score here (6.1 vs 6.4), while costing about 5.9x less than Gemini 3.1 Flash Lite Preview.

Last updated at: 2026-06-18

Metric	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Release: 2026-03-03	Gemma 4 31B Gemma 4 31B none Release: 2026-04-02 Free Available

Metric	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview none Release: 2026-03-03	Gemma 4 31B Gemma 4 31B none Release: 2026-04-02 Free Available
Score	6.4	6.1
Rank	#84	#98
Reliability	10.0	10.0
Consistency	9.7	10.0
Tests Correct
Attempt pass rate	60.3%	47.6%
Flaky tests	1	0
Total Runs	63	63
Cost per result	0.148	0.034
Total Cost	$0.018	$0.004
Input Price	$0.250 / 1M	$0.120 / 1M
Output Price	$1.500 / 1M	$0.350 / 1M
Total Input Tokens	37,582	20,911
Output Tokens	5,547	1,407
Reasoning Tokens	0	0
Response Time (avg)	1.21s	4.05s
Response Time (max)	3.39s	26.13s
Response Time (total)	25.45s	76.87s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#84 Gemini 3.1 Flash Lite Preview

none

Cost: $0.003
Time: 4.7s
Tokens: 1,827 tok

#98 Gemma 4 31B

none

Cost: $0.001
Time: 12.8s
Tokens: 795 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	7.5	8.4	66.7%	1		1.04s	504	1,092	0
Gemma 4 31B	6.5	10.0	50.0%	0		1.85s	852	45	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		967ms	8,128	670	0
Gemma 4 31B	5.5	10.0	33.3%	0		11.19s	8,381	735	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		3.20s	13,026	339	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.22s	7,550	399	0
Gemma 4 31B	10.0	10.0	100.0%	0		2.25s	8,352	285	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	5.3	10.0	33.3%	0		942ms	641	568	0
Gemma 4 31B	7.7	10.0	66.7%	0		3.22s	903	27	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	4.0	10.0	0.0%	0		741ms	488	69	0
Gemma 4 31B	10.0	10.0	100.0%	0		2.09s	576	117	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.13s	623	574	0
Gemma 4 31B	6.5	10.0	50.0%	0		2.84s	795	78	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		900ms	570	1,045	0
Gemma 4 31B	6.5	10.0	33.3%	0		4.23s	828	108	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.39s	5,894	782	0
Gemma 4 31B	3.0	10.0	0.0%	0		0ms	0	0	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		814ms	158	9	0
Gemma 4 31B	3.0	10.0	0.0%	0		1.25s	224	12	0

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewnonevsNemotron 3 SupermediumFree Available Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 27Bmedium Gemini 3.1 Flash Lite PreviewnonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsStep 3.5 Flashmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5 Nanomedium Gemma 4 31BnoneFree AvailablevsQwen3.5-35B-A3Bmedium North Mini CodemediumFree AvailablevsGemma 4 31BnoneFree Available Gemma 4 31BnoneFree AvailablevsNemotron 3 SupermediumFree Available Gemini 3.1 Flash Lite Previewnonevsgpt-oss-120bmediumFree Available Gemini 3.1 Flash Lite PreviewnonevsMiMo-V2.5medium Gemini 3.1 Flash Lite PreviewnonevsQwen3.6 35B A3Bmedium Gemini 3.1 Flash Lite PreviewnonevsRing-2.6-1Tmedium