AI BENCHY Compare

Anthropic: Claude Sonnet 5 vs Google: Gemini 3.5 Flash

Summary

Claude Sonnet 5 vs Gemini 3.5 Flash benchmark comparison: Gemini 3.5 Flash leads on average score with 9.8 vs 7.9. Claude Sonnet 5 has the lower benchmark cost at $0.550 vs $1.115. Gemini 3.5 Flash is faster at 8.84s vs 9.94s, with pass rates of 79.4% vs 96.8%.

Recommended model: Gemini 3.5 Flash - It has the strongest score in this comparison (9.8) and the best overall balance of cost and response time across all 2 models.

Last updated at: 2026-06-30

Metric	Claude Sonnet 5 Claude Sonnet 5 medium Release: 2026-06-30	Gemini 3.5 Flash Gemini 3.5 Flash high Release: 2026-05-19

Metric	Claude Sonnet 5 Claude Sonnet 5 medium Release: 2026-06-30	Gemini 3.5 Flash Gemini 3.5 Flash high Release: 2026-05-19
Score	7.9	9.8
Rank	#30	#1
Reliability	10.0	10.0
Consistency	9.0	9.6
Tests Correct
Attempt pass rate	79.4%	96.8%
Flaky tests	3	1
Total Runs	63	63
Cost per result	3.662	5.575
Total Cost	$0.550	$1.115
Input Price	$2.000 / 1M	$1.500 / 1M
Output Price	$10.000 / 1M	$9.000 / 1M
Total Input Tokens	67,416	37,594
Output Tokens	34,012	1,975
Reasoning Tokens	7,673	115,638
Response Time (avg)	9.94s	8.84s
Response Time (max)	56.94s	34.82s
Response Time (total)	208.71s	185.57s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#30 Claude Sonnet 5

medium

Cost: $0.007
Time: 6.4s
Tokens: 832 tok

#1 Gemini 3.5 Flash

high

Cost: $0.208
Time: 118.2s
Tokens: 23,158 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	10.0	10.0	100.0%	0		3.80s	834	1,220	446
Gemini 3.5 Flash	10.0	10.0	100.0%	0		2.57s	492	174	4,997

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	9.0	7.9	88.9%	1		17.28s	10,590	13,153	2,379
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.96s	8,118	456	47,129

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	4.5	2.1	66.7%	1		37.01s	29,394	4,848	2,170
Gemini 3.5 Flash	10.0	10.0	100.0%	0		22.37s	12,873	351	16,323

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	10.0	10.0	100.0%	0		3.16s	10,503	312	0
Gemini 3.5 Flash	10.0	10.0	100.0%	0		6.43s	7,548	279	8,466

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	7.7	10.0	66.7%	0		20.38s	975	12,140	1,994
Gemini 3.5 Flash	7.6	7.2	77.8%	1		14.09s	633	12	24,721

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	4.8	3.2	33.3%	1		4.32s	708	264	0
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.63s	486	115	1,650

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	9.9	10.0	100.0%	0		3.10s	909	318	269
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.35s	615	70	3,799

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	7.7	10.0	66.7%	0		2.98s	894	407	121
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.23s	558	241	4,940

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	10.0	10.0	100.0%	0		10.70s	12,351	433	90
Gemini 3.5 Flash	9.8	10.0	100.0%	0		4.96s	6,115	265	1,608

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Sonnet 5	3.0	10.0	0.0%	0		7.06s	258	917	204
Gemini 3.5 Flash	10.0	10.0	100.0%	0		3.94s	156	12	2,005

Quick Compare

Switch Comparison Pair

Claude Sonnet 5mediumvsStep 3.7 Flashlow Claude Sonnet 5mediumvsDeepSeek V4 Prohigh Claude Sonnet 5mediumvsGPT-5.3 Chatnone Claude Sonnet 5mediumvsDeepSeek V4 Flashhigh Gemini 3.5 FlashhighvsQwen3.7 Maxmedium Claude Sonnet 5mediumvsGemini 3 Flash Previewlow Gemini 3.5 FlashhighvsGPT-5.5low Claude Sonnet 5mediumvsGPT-5.2 Chatnone Claude Fable 5mediumvsGemini 3.5 Flashhigh Claude Sonnet 5mediumvsDeepSeek V4 Pronone Claude Sonnet 5mediumvsQwen3.7 Plusnone Claude Sonnet 5mediumvsGLM 5.2none