Anthropic: Claude Opus 4.8 vs Google: Gemini 3.1 Flash Lite Preview

The average score is effectively tied at 7.3 vs 7.3. Gemini 3.1 Flash Lite Preview (medium) has the lower benchmark cost at $0.115 vs $1.166. Gemini 3.1 Flash Lite Preview (medium) is faster at 4.61s vs 4.91s, with pass rates of 63.6% vs 59.1%.

Recommended modelGemini 3.1 Flash Lite Preview (medium)It has the best score here (7.3), while costing about 10.2x less than Claude Opus 4.8.

Last updated at: 2026-07-17

Metric	Claude Opus 4.8 Claude Opus 4.8 none Release: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Release: 2026-03-03

Metric	Claude Opus 4.8 Claude Opus 4.8 none Release: 2026-05-28	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Release: 2026-03-03
Score	7.3	7.3
Rank	#63	#61
Reliability	10.0	10.0
Consistency	9.2	9.9
Tests Correct
Attempt pass rate	63.6%	59.1%
Flaky tests	2	0
Total Runs	66	66
Cost per result	8.969	0.884
Total Cost	$1.166	$0.115
Input Price	$5.000 / 1M	$0.250 / 1M
Output Price	$25.000 / 1M	$1.500 / 1M
Total Input Tokens	149,206	117,480
Output Tokens	16,797	10,589
Reasoning Tokens	0	46,394
Response Time (avg)	4.91s	4.61s
Response Time (max)	35.03s	18.34s
Response Time (total)	108.03s	101.39s

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Claude Opus 4.8

none

Cost: $0.053
Time: 22.0s
Tokens: 2,253 tok

#61 Gemini 3.1 Flash Lite Preview

medium

Cost: $0.003
Time: 5.2s
Tokens: 1,944 tok

Top Models by Score

Score vs Total Cost

Response Time (avg)

Score vs Response Time (avg)

Total Output Tokens

Score vs Total Output Tokens

Category Breakdown

Category:

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	6.5	10.0	50.0%	0		3.40s	834	1,472	0
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	512	570	4,305

Coding	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	5.5	10.0	33.3%	0		3.29s	10,590	1,332	0
Gemini 3.1 Flash Lite Preview	5.5	10.0	33.3%	0		4.09s	8,126	461	8,597

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	9.8	10.0	100.0%	0		26.38s	111,760	11,949	0
Gemini 3.1 Flash Lite Preview	7.2	9.1	50.0%	0		16.63s	93,097	8,706	16,997

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	7.3	5.8	83.3%	1		1.77s	10,503	308	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	7,362	279	2,952

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	5.3	7.2	44.4%	1		1.70s	975	61	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	639	18	5,325

General Intelligence	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		3.48s	708	230	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	488	96	1,488

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	9.9	10.0	100.0%	0		1.37s	909	95	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	621	72	2,121

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	7.7	10.0	66.7%	0		2.74s	894	783	0
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	566	141	1,896

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	10.0	10.0	100.0%	0		5.35s	11,775	355	0
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	5,909	234	912

Trivia	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Response Time (avg)	Input Tokens	Output Tokens	Reasoning Tokens
Claude Opus 4.8	3.0	10.0	0.0%	0		3.41s	258	212	0
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	160	12	1,801

Quick Compare

Switch Comparison Pair

Claude Opus 4.8nonevsStep 3.7 Flashlow Claude Opus 4.8nonevsKimi K2.6medium Claude Sonnet 4.6nonevsGemini 3.1 Flash Lite Previewmedium Claude Opus 4.8nonevsGemini 3.1 Flash Litemedium Claude Opus 4.8nonevsKAT-Coder-Pro V2.5high Gemini 3.1 Flash Lite PreviewmediumvsKAT-Coder-Pro V2.5low Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow Claude Opus 4.8nonevsQwen3.5 Plus 2026-04-20medium Gemini 3.1 Flash Lite PreviewmediumvsKAT-Coder-Pro V2.5high Claude Opus 4.8nonevsKAT-Coder-Pro V2.5low Claude Opus 4.8nonevsGemini 3 Flash Previewlow Claude Opus 4.8nonevsQwen3.5-122B-A10Bmedium