AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.4

Summary

Gemini 2.5 Flash vs GPT-5.4 benchmark comparison: Gemini 2.5 Flash leads on average score with 6.2 vs 5.8. Gemini 2.5 Flash has the lower benchmark cost at $0.016 vs $0.122. Gemini 2.5 Flash is faster at 875ms vs 1.42s, with pass rates of 46.0% vs 36.5%.

Recommended model: Gemini 2.5 Flash - It has the best score here (6.2), while costing about 8.0x less than GPT-5.4.

Last updated at: 2026-06-18

Metric	Gemini 2.5 Flash Gemini 2.5 Flash none Release: 2025-06-17	GPT-5.4 GPT-5.4 none Release: 2026-03-05

Metric	Gemini 2.5 Flash Gemini 2.5 Flash none Release: 2025-06-17	GPT-5.4 GPT-5.4 none Release: 2026-03-05
Score	6.2	5.8
Rank	#93	#112
Reliability	10.0	10.0
Consistency	9.6	9.2
Tests Correct
Attempt pass rate	46.0%	36.5%
Flaky tests	1	2
Total Runs	63	63
Cost per result	0.169	1.740
Total Cost	$0.016	$0.122
Input Price	$0.300 / 1M	$2.500 / 1M
Output Price	$2.500 / 1M	$15.000 / 1M
Total Input Tokens	35,926	34,212
Output Tokens	1,770	2,417
Reasoning Tokens	0	0
Response Time (avg)	875ms	1.42s
Response Time (max)	4.39s	2.95s
Response Time (total)	18.37s	29.87s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#93 Gemini 2.5 Flash

none

Invalid SVG

Cost: $0.164
Time: 215.5s
Tokens: 65,659 tok

#112 GPT-5.4

none

Cost: $0.026
Time: 18.1s
Tokens: 1,792 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	3.0	10.0	0.0%	0		582ms	492	102	0
GPT-5.4	3.2	8.0	8.3%	1		1.21s	606	406	0

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	5.5	10.0	33.3%	0		736ms	8,122	483	0
GPT-5.4	5.5	10.0	33.3%	0		1.62s	7,305	516	0

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	3.0	10.0	0.0%	0		4.39s	12,519	366	0
GPT-5.4	3.0	10.0	0.0%	0		2.89s	11,019	291	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	10.0	10.0	100.0%	0		652ms	7,257	279	0
GPT-5.4	10.0	10.0	100.0%	0		1.04s	7,140	222	0

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	5.9	7.2	55.6%	1		495ms	633	12	0
GPT-5.4	5.3	7.2	44.4%	1		1.07s	723	50	0

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	5.0	10.0	0.0%	0		615ms	486	78	0
GPT-5.4	4.4	9.9	0.0%	0		1.78s	477	184	0

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	10.0	10.0	100.0%	0		590ms	615	72	0
GPT-5.4	6.5	10.0	50.0%	0		1.07s	660	81	0

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	7.7	10.0	66.7%	0		604ms	558	132	0
GPT-5.4	5.6	9.8	33.3%	0		1.44s	642	381	0

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	10.0	10.0	100.0%	0		1.91s	5,088	234	0
GPT-5.4	10.0	10.0	100.0%	0		2.75s	5,445	246	0

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	3.0	10.0	0.0%	0		1.15s	156	12	0
GPT-5.4	3.0	10.0	0.0%	0		990ms	195	40	0

Quick Compare

Switch Comparison Pair

North Mini CodemediumFree AvailablevsGPT-5.4none Gemini 2.5 FlashnonevsQwen3.5-35B-A3Bmedium Gemini 2.5 FlashnonevsNemotron 3 SupermediumFree Available North Mini CodemediumFree AvailablevsGemini 2.5 Flashnone Gemini 3.1 Flash LiteminimalvsGPT-5.4none Gemini 2.5 FlashnonevsQwen3.6 27Bmedium Gemini 2.5 FlashnonevsStep 3.5 Flashmedium Gemini 2.5 FlashnonevsGPT-5 Nanomedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium Gemma 4 31BmediumFree AvailablevsGPT-5.4none Nemotron 3 SupermediumFree AvailablevsGPT-5.4none Gemini 2.5 Flashnonevsgpt-oss-120bmediumFree Available