Compare Charts

Language:

❤️ Made by XCS

AI BENCHY Compare

Compared models

Compare:

Last updated at: 2026-03-04

Metric	Google: Gemini 3.1 Flash Lite Preview low Release: 2026-03-03	Google: Gemini 3.1 Flash Lite Preview medium Release: 2026-03-03	Google: Gemini 3.1 Flash Lite Preview high Release: 2026-03-03	Google: Gemini 3 Flash Preview low Release: 2025-12-17
Rank	#12	#19	#7	#8
Avg Score	7.38	7.12	7.92	7.87
Consistency	10.00	10.00	9.99	9.44
Cost per result	0.162	0.403	17.455	0.624
Total Cost	$0.017	$0.037	$1.920	$0.069
Tests Correct
Attempt pass rate	66.7%	60.0%	73.3%	75.6%
Flaky tests	0	0	0	1
Output Tokens	1,392	1,417	943	1,274
Reasoning Tokens	6,379	19,435	1,275,768	18,372

Top Models by Score

Score vs Total Cost

Category Breakdown

Anti-AI Tricks	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		456	1,224
Google: Gemini 3.1 Flash Lite Preview	9.00	9.99	66.7%	0		564	3,780
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		144	193,077
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		275	2,476

Combined	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	1.00	10.00	0.0%	0		75	253
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		109	2,449
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		112	126,813
Google: Gemini 3 Flash Preview	1.00	10.00	0.0%	0		104	0

Data parsing and extraction	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		291	696
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		279	2,952
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		279	6,186
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		305	3,004

Domain specific	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		18	1,212
Google: Gemini 3.1 Flash Lite Preview	1.00	10.00	0.0%	0		18	5,325
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		18	566,202
Google: Gemini 3 Flash Preview	4.00	7.21	44.4%	1		12	6,410

Instructions following	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	8.50	10.00	50.0%	0		72	753
Google: Gemini 3.1 Flash Lite Preview	8.00	9.99	50.0%	0		72	2,121
Google: Gemini 3.1 Flash Lite Preview	8.00	9.96	50.0%	0		69	190,053
Google: Gemini 3 Flash Preview	7.50	9.99	50.0%	0		71	2,752

Puzzle Solving	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		243	1,248
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		141	1,896
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		87	190,953
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		273	3,315

Tool Calling	Score	Consistency	Attempt pass rate	Flaky tests	Tests Correct	Output Tokens	Reasoning Tokens
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		237	993
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		234	912
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		234	2,484
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		234	415

Quick Compare

Switch Comparison Pair

Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumFree Available Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone