Compară Grafice

Limbă:

❤️ Made by XCS

AI BENCHY Compare

Modele comparate

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-04

Metrică	Google: Gemini 3.1 Flash Lite Preview low Lansare: 2026-03-03	Google: Gemini 3.1 Flash Lite Preview medium Lansare: 2026-03-03	Google: Gemini 3.1 Flash Lite Preview high Lansare: 2026-03-03	Google: Gemini 3 Flash Preview low Lansare: 2025-12-17
Rang	#12	#19	#7	#8
Scor mediu	7.38	7.12	7.92	7.87
Consistență	10.00	10.00	9.99	9.44
Cost per rezultat	0.162	0.403	17.455	0.624
Cost total	$0.017	$0.037	$1.920	$0.069
Teste corecte
Rată de trecere pe încercare	66.7%	60.0%	73.3%	75.6%
Teste instabile	0	0	0	1
Tokenuri de ieșire	1,392	1,417	943	1,274
Tokenuri de raționament	6,379	19,435	1,275,768	18,372

Top modele după scor

Scor vs cost total

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		456	1,224
Google: Gemini 3.1 Flash Lite Preview	9.00	9.99	66.7%	0		564	3,780
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		144	193,077
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		275	2,476

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	1.00	10.00	0.0%	0		75	253
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		109	2,449
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		112	126,813
Google: Gemini 3 Flash Preview	1.00	10.00	0.0%	0		104	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		291	696
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		279	2,952
Google: Gemini 3.1 Flash Lite Preview	9.88	10.00	100.0%	0		279	6,186
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		305	3,004

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		18	1,212
Google: Gemini 3.1 Flash Lite Preview	1.00	10.00	0.0%	0		18	5,325
Google: Gemini 3.1 Flash Lite Preview	4.00	10.00	33.3%	0		18	566,202
Google: Gemini 3 Flash Preview	4.00	7.21	44.4%	1		12	6,410

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	8.50	10.00	50.0%	0		72	753
Google: Gemini 3.1 Flash Lite Preview	8.00	9.99	50.0%	0		72	2,121
Google: Gemini 3.1 Flash Lite Preview	8.00	9.96	50.0%	0		69	190,053
Google: Gemini 3 Flash Preview	7.50	9.99	50.0%	0		71	2,752

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		243	1,248
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		141	1,896
Google: Gemini 3.1 Flash Lite Preview	7.00	10.00	66.7%	0		87	190,953
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		273	3,315

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		237	993
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		234	912
Google: Gemini 3.1 Flash Lite Preview	10.00	10.00	100.0%	0		234	2,484
Google: Gemini 3 Flash Preview	10.00	10.00	100.0%	0		234	415

Comparație rapidă

Schimbă perechea de comparație

Gemini 3.1 Flash Lite PreviewlowvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewhighvsGPT-5.3-Codexmedium Gemini 3.1 Flash Lite PreviewlowvsStep 3.5 FlashmediumDisponibil gratuit Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2 Chatnone DeepSeek V3.2mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3 Flash PreviewlowvsGPT-5.3-Codexmedium Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewlow Gemini 3.1 Flash Lite PreviewlowvsGPT-5.2medium Claude Sonnet 4.6mediumvsGemini 3 Flash Previewlow Gemini 3 Flash PreviewlowvsGPT-5.2 Chatnone Claude Sonnet 4.6mediumvsGemini 3.1 Flash Lite Previewhigh Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone