AI BENCHY Compare

Anthropic: Claude Sonnet 4.6 vs Google: Gemini 3.1 Flash Lite

Rezumat

Comparație benchmark Claude Sonnet 4.6 vs Gemini 3.1 Flash Lite: Claude Sonnet 4.6 conduce la scorul mediu cu 7.3 vs 6.1. Gemini 3.1 Flash Lite are costul de benchmark mai mic, $0.013 vs $0.316. Gemini 3.1 Flash Lite este mai rapid cu 1.33s vs 5.04s, cu rate de reușită de 55.6% vs 54.0%.

Model recomandat: Gemini 3.1 Flash Lite - Oferă cel mai bun compromis per total: scor competitiv (6.1), cost mai mic decât Claude Sonnet 4.6 și timp de răspuns echilibrat.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-18

Metrică	Claude Sonnet 4.6 Claude Sonnet 4.6 none Lansare: 2026-02-17	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Lansare: 2026-05-08

Metrică	Claude Sonnet 4.6 Claude Sonnet 4.6 none Lansare: 2026-02-17	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite minimal Lansare: 2026-05-08
Scor	7.3	6.1
Rang	#55	#94
Fiabilitate	10.0	10.0
Consistență	9.7	8.8
Teste corecte
Rată de trecere pe încercare	55.6%	54.0%
Teste instabile	1	3
Rulări totale	63	63
Cost per rezultat	2.870	0.130
Cost total	$0.316	$0.013
Preț de intrare	$3.000 / 1M	$0.250 / 1M
Preț de ieșire	$15.000 / 1M	$1.500 / 1M
Total tokenuri de intrare	57,886	36,973
Tokenuri de ieșire	9,465	2,487
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	5.04s	1.33s
Timp de răspuns (maxim)	23.84s	4.49s
Timp de răspuns (total)	70.60s	27.91s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#55 Claude Sonnet 4.6

none

Cost: $0.038
Timp: 27.3s
Tokenuri: 2,598 tok

#94 Gemini 3.1 Flash Lite

minimal

Cost: $0.001
Timp: 3.7s
Tokenuri: 635 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	4.8	10.0	25.0%	0		2.94s	636	1,214	0
Gemini 3.1 Flash Lite	8.3	10.0	75.0%	0		1.10s	500	639	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	5.5	10.0	33.3%	0		5.19s	8,522	2,127	0
Gemini 3.1 Flash Lite	5.5	10.0	33.3%	0		831ms	8,126	666	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	9.5	10.0	100.0%	0		23.84s	26,024	3,766	0
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.53s	12,870	357	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	10.0	10.0	100.0%	0		3.43s	8,574	252	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		1.04s	7,552	279	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	7.7	10.0	66.7%	0		3.54s	759	413	0
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		1.02s	641	15	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	6.1	3.1	66.7%	1		2.56s	513	192	0
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		791ms	490	63	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	6.5	10.0	50.0%	0		1.96s	690	90	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		932ms	615	72	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	7.7	10.0	66.7%	0		2.53s	663	533	0
Gemini 3.1 Flash Lite	6.0	4.6	66.7%	2		2.15s	564	153	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	10.0	10.0	100.0%	0		4.11s	11,301	447	0
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		3.51s	5,457	234	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Claude Sonnet 4.6	3.0	10.0	0.0%	0		4.67s	204	431	0
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		724ms	158	9	0

Comparație rapidă

Schimbă perechea de comparație

Gemini 3.1 Flash LiteminimalvsQwen3.5-Flashnone Claude Sonnet 4.6nonevsGrok 4.20medium Seed-2.0-LitenonevsGemini 3.1 Flash Liteminimal Claude Sonnet 4.6nonevsGemini 3 Flash Previewlow Gemini 3.1 Flash LiteminimalvsNemotron 3 Ultra 550b A55bnoneDisponibil gratuit Claude Sonnet 4.6nonevsMiMo-V2.5-Promedium Claude Sonnet 4.6nonevsSeed-2.0-Minimedium Claude Sonnet 4.6nonevsGemma 4 26B A4BmediumDisponibil gratuit Gemini 3.1 Flash LiteminimalvsGPT-5.5none Gemini 3.1 Flash LiteminimalvsQwen3.6 Max Previewnone Claude Sonnet 4.6nonevsDeepSeek V3.2medium Claude Sonnet 4.6nonevsQwen3.6 Flashmedium