AI BENCHY Compare

Google: Gemini 3.5 Flash vs OpenAI: GPT-5.3-Codex

Last updated at: 2026-05-19

Metric	Gemini 3.5 Flash Gemini 3.5 Flash none Release: 2026-05-19	GPT-5.3-Codex GPT-5.3-Codex medium Release: 2026-02-05

Metric	Gemini 3.5 Flash Gemini 3.5 Flash none Release: 2026-05-19	GPT-5.3-Codex GPT-5.3-Codex medium Release: 2026-02-05
Score	9.1	8.2
Rank	#6	#17
Reliability	10.0	10.0
Consistency	9.0	8.3
Tests Correct
Attempt pass rate	91.7%	80.7%
Flaky tests	2	4
Total Runs	57	57
Cost per result	3.490	4.594
Total Cost	$0.489	$0.598
Input Price	$1.500 / 1M	$1.750 / 1M
Output Price	$9.000 / 1M	$14.000 / 1M
Output Tokens	53,202	2,309
Reasoning Tokens	0	36,880
Response Time (avg)	5.59s	15.33s
Response Time (max)	14.88s	100.93s
Response Time (total)	89.50s	291.34s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.53s	5,101	0
GPT-5.3-Codex	8.7	7.9	91.7%	1		4.16s	240	1,722

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		14.88s	11,611	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		8.95s	491	1,530

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	0.0	0.0	0.0%	0		0ms	0	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		8.10s	5,895	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.07s	234	728

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	7.6	7.2	77.8%	1		10.64s	17,910	0
GPT-5.3-Codex	5.9	7.2	55.6%	1		64.31s	64	25,308

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.46s	1,620	0
GPT-5.3-Codex	4.6	10.0	0.0%	0		4.87s	187	331

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	9.8	10.0	100.0%	0		3.38s	3,928	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.13s	4,640	0
GPT-5.3-Codex	9.0	7.9	88.9%	1		5.12s	352	1,644

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	0.0	0.0	0.0%	0		0ms	0	0
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Gemini 3.5 Flash	2.8	1.6	33.3%	1		4.87s	2,497	0
GPT-5.3-Codex	2.8	1.6	33.3%	1		14.43s	30	1,701

Quick Compare

Switch Comparison Pair

Gemini 3.5 FlashminimalvsGPT-5.3-Codexmedium Claude Opus 4.7mediumvsGemini 3.5 Flashnone Gemini 3.5 FlashnonevsGPT-5.5medium Gemini 3.5 FlashnonevsGPT-5.5low Gemini 3 Flash PreviewnonevsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.3-Codexmedium Gemini 3.5 FlashnonevsQwen3.6 Max Previewmedium Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Gemini 3.1 Flash LitelowvsGPT-5.3-Codexmedium DeepSeek V4 FlashhighFree AvailablevsGPT-5.3-Codexmedium Seed-2.0-LitemediumvsGemini 3.5 Flashnone