AI BENCHY Compare

Compared models

Last updated at: 2026-03-12

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium Release: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19

Metric	Claude Opus 4.6 Claude Opus 4.6 medium Release: 2026-02-05	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	GPT-5.3-Codex GPT-5.3-Codex medium Release: 2026-02-05	Gemini 3.1 Pro Preview Gemini 3.1 Pro Preview medium Release: 2026-02-19
Rank	#28	#12	#4	#2
Avg Score	6.6	7.7	8.4	9.4
Consistency	9.0	9.5	9.1	10.0
Cost per result	13.118	8.525	4.485	3.417
Total Cost	$1.312	$1.023	$0.539	$0.513
Tests Correct
Attempt pass rate	66.7%	77.1%	83.3%	93.8%
Flaky tests	2	1	2	0
Total Runs	48	48	48	48
Output Tokens	26,254	35,159	1,764	1,521
Reasoning Tokens	17,363	24,687	33,348	35,656
Response Time (avg)	22.86s	11.23s	16.59s	16.60s
Response Time (max)	83.40s	46.35s	100.93s	40.61s
Response Time (total)	205.71s	89.84s	265.39s	149.36s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Avg Score vs Response Time (avg)

Total Output Tokens

Avg Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	4.0	4.4	55.6%	2		11.88s	897	1,000
Claude Sonnet 4.6	7.0	10.0	66.7%	0		4.95s	1,031	1,093
GPT-5.3-Codex	10.0	10.0	100.0%	0		4.69s	216	1,421
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.52s	106	2,533

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		76.66s	8,178	5,194
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
GPT-5.3-Codex	10.0	10.0	100.0%	0		19.56s	364	2,731
Gemini 3.1 Pro Preview	9.0	10.0	100.0%	0		40.61s	432	9,281

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	9.9	10.0	100.0%	0		7.37s	691	757
Claude Sonnet 4.6	9.9	10.0	100.0%	0		13.90s	649	742
GPT-5.3-Codex	9.9	10.0	100.0%	0		3.07s	234	728
Gemini 3.1 Pro Preview	9.9	10.0	100.0%	0		7.72s	279	3,904

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	0.0%	0		83.40s	14,642	8,687
Claude Sonnet 4.6	10.0	7.2	11.1%	1		0ms	25,790	16,919
GPT-5.3-Codex	4.0	7.2	55.6%	1		64.31s	64	25,308
Gemini 3.1 Pro Preview	7.0	10.0	66.7%	0		32.73s	18	12,424

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		5.04s	188	292
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
GPT-5.3-Codex	4.0	10.0	0.0%	0		4.87s	187	331
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		11.77s	108	1,179

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		2.43s	266	467
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
GPT-5.3-Codex	10.0	10.0	100.0%	0		3.04s	93	693
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		9.56s	72	2,236

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	7.0	10.0	66.7%	0		4.60s	531	637
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
GPT-5.3-Codex	9.3	7.9	88.9%	1		5.12s	352	1,644
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		7.15s	232	3,117

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Opus 4.6	10.0	10.0	100.0%	0		9.73s	861	329
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
GPT-5.3-Codex	10.0	10.0	100.0%	0		6.37s	254	492
Gemini 3.1 Pro Preview	10.0	10.0	100.0%	0		23.15s	274	982

Quick Compare

Switch Comparison Pair

Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Opus 4.6mediumvsQwen3.5 Plus 2026-02-15none Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Claude Opus 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Opus 4.6mediumvsGLM 5none Claude Opus 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Opus 4.6mediumvsGPT-5.3 Chatnone