AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite

Last updated at: 2026-05-19

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Release: 2026-05-08

Metric	Claude Sonnet 4.6 Claude Sonnet 4.6 medium Release: 2026-02-17	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite medium Release: 2026-05-08
Score	7.8	7.9
Rank	#40	#32
Reliability	10.0	10.0
Consistency	9.6	9.1
Tests Correct
Attempt pass rate	70.2%	71.9%
Flaky tests	1	2
Total Runs	57	57
Cost per result	9.515	0.452
Total Cost	$1.237	$0.059
Input Price	$3.000 / 1M	$0.250 / 1M
Output Price	$15.000 / 1M	$1.500 / 1M
Output Tokens	45,505	2,224
Reasoning Tokens	28,370	32,034
Response Time (avg)	14.25s	3.14s
Response Time (max)	46.35s	10.87s
Response Time (total)	156.71s	59.62s

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	6.5	10.0	50.0%	0		2.98s	1,046	1,093
Gemini 3.1 Flash Lite	9.1	10.0	75.0%	0		2.39s	604	4,201

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		35.76s	6,894	2,097
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.26s	429	2,712

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		46.35s	5,871	3,962
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		10.87s	327	7,401

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		13.90s	649	742
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	279	2,845

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	2.9	7.2	11.1%	1		0ms	25,790	16,919
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		3.16s	15	5,165

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.94s	256	433
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.60s	84	1,142

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		2.61s	318	552
Gemini 3.1 Flash Lite	9.9	10.0	100.0%	0		2.59s	75	3,320

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.80s	589	635
Gemini 3.1 Flash Lite	7.6	7.2	77.8%	1		1.95s	165	2,450

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	10.0	10.0	100.0%	0		7.48s	655	351
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		4.55s	234	921

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Output Tokens	Reasoning Tokens
Claude Sonnet 4.6	3.0	10.0	0.0%	0		30.09s	3,437	1,586
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		3.08s	12	1,877

Quick Compare

Switch Comparison Pair

Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Claude Sonnet 4.6mediumvsGemini 3 Flash Previewnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewnone Claude Sonnet 4.6mediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Litelow Claude Sonnet 4.6mediumvsGPT-5.3 Chatnone Claude Sonnet 4.6mediumvsDeepSeek V4 FlashhighFree Available Gemini 3.1 Flash LitemediumvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.5 Flashminimal Gemini 3.1 Flash LitemediumvsGPT-5.3 Chatnone DeepSeek V4 FlashhighFree AvailablevsGemini 3.1 Flash Litemedium Claude Sonnet 4.6mediumvsQwen3.6 Max Previewnone