AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.3-Codex

Last updated at: 2026-03-15

Metric	Gemini 2.5 Flash Gemini 2.5 Flash medium Release: 2025-06-17	GPT-5.3-Codex GPT-5.3-Codex medium Release: 2026-02-05

Metric	Gemini 2.5 Flash Gemini 2.5 Flash medium Release: 2025-06-17	GPT-5.3-Codex GPT-5.3-Codex medium Release: 2026-02-05
Rank	#15	#5
Score	8.0	8.7
Consistency	9.5	9.1
Cost per result	2.619	4.485
Total Cost	$0.288	$0.539
Tests Correct
Attempt pass rate	72.9%	83.3%
Flaky tests	1	2
Total Runs	48	48
Output Tokens	1,370	1,764
Reasoning Tokens	110,522	33,348
Response Time (avg)	12.35s	16.59s
Response Time (max)	95.48s	100.93s
Response Time (total)	197.62s	265.39s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	7.8	10.0	66.7%	0		6.98s	249	8,832
GPT-5.3-Codex	10.0	10.0	100.0%	0		4.69s	216	1,421

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	10.0	10.0	100.0%	0		28.44s	303	11,922
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	10.0	10.0	100.0%	0		4.06s	279	2,325
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	5.9	7.2	55.6%	1		37.34s	18	80,702
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	4.8	10.0	0.0%	0		4.86s	92	1,899
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	9.8	10.0	100.0%	0		2.62s	69	1,203
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	7.7	10.0	66.7%	0		3.94s	126	2,499
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 2.5 Flash	10.0	10.0	100.0%	0		6.20s	234	1,140
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492

Quick Compare

Switch Comparison Pair

Gemini 2.5 FlashmediumvsGPT-5.2 Chatnone Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 2.5 FlashmediumvsGPT-5.3 Chatnone Claude Sonnet 4.6nonevsGemini 2.5 Flashmedium Gemini 3 Flash PreviewnonevsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3-Codexmedium Gemini 2.5 FlashmediumvsQwen3.5 Plus 2026-02-15none Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Gemini 2.5 FlashmediumvsGLM 5none Claude Sonnet 4.6nonevsGPT-5.3-Codexmedium DeepSeek V3.2nonevsGemini 2.5 Flashmedium GPT-5.3-CodexmediumvsQwen3.5 Plus 2026-02-15none