AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs OpenAI: GPT-5.4 Nano

Last updated at: 2026-03-17

Metric	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19	GPT-5.4 Nano GPT-5.4 Nano none Release: 2026-03-17

Metric	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19	GPT-5.4 Nano GPT-5.4 Nano none Release: 2026-03-17
Rank	#2	#73
Score	9.6	4.3
Consistency	10.0	7.3
Cost per result	3.257	0.404
Total Cost	$0.522	$0.009
Tests Correct
Attempt pass rate	94.1%	29.4%
Flaky tests	0	6
Total Runs	51	51
Output Tokens	1,527	2,185
Reasoning Tokens	36,341	0
Response Time (avg)	15.56s	1.39s
Response Time (max)	40.61s	3.84s
Response Time (total)	155.64s	23.70s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.90s	112	3,218
GPT-5.4 Nano	3.5	8.0	16.7%	1		1.18s	800	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	9.5	10.0	100.0%	0		40.61s	432	9,281
GPT-5.4 Nano	3.0	10.0	0.0%	0		3.84s	280	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.72s	279	3,904
GPT-5.4 Nano	6.5	10.0	50.0%	0		1.11s	219	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	7.7	10.0	66.7%	0		32.73s	18	12,424
GPT-5.4 Nano	2.9	4.4	22.2%	2		926ms	52	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179
GPT-5.4 Nano	3.8	2.5	33.3%	1		1.31s	180	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236
GPT-5.4 Nano	5.0	6.8	33.3%	1		787ms	84	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117
GPT-5.4 Nano	3.7	7.3	22.2%	1		1.29s	348	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982
GPT-5.4 Nano	10.0	10.0	100.0%	0		3.40s	222	0

Quick Compare

Switch Comparison Pair

GPT-5.4 NanononevsQwen3.5-9Bmedium GPT-5.4 NanononevsGLM 4.7 Flashmedium GPT-5.4 NanononevsQwen3 Coder Nextmedium Mistral Small 4mediumvsGPT-5.4 Nanonone MiniMax M2.5mediumFree AvailablevsGPT-5.4 Nanonone Gemini 3.1 Pro PreviewmediumvsGPT-5.2 Chatnone GPT-5.4 NanononevsGrok 4.20 Multi-Agent Betamedium Gemini 3.1 Pro PreviewmediumvsGPT-5.3 Chatnone Mercury 2mediumvsGPT-5.4 Nanonone Claude Sonnet 4.6nonevsGemini 3.1 Pro Previewmedium Nemotron 3 Super 120b A12bmediumFree AvailablevsGPT-5.4 Nanonone GPT-5.4 NanononevsGrok 4.1 Fastmedium