AI BENCHY Compare

Google: Gemini 3.1 Flash Lite Preview vs OpenAI: GPT-5.5

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-01

Metrică	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Lansare: 2026-03-03	GPT-5.5 GPT-5.5 none Lansare: 2026-04-24

Metrică	Gemini 3.1 Flash Lite Preview Gemini 3.1 Flash Lite Preview medium Lansare: 2026-03-03	GPT-5.5 GPT-5.5 none Lansare: 2026-04-24
Scor	7.7	6.5
Rang	#38	#91
Fiabilitate	10.0	10.0
Consistență	10.0	8.7
Teste corecte
Rată de trecere pe încercare	65.0%	56.7%
Teste instabile	0	3
Rulări totale	60	60
Cost per rezultat	0.481	2.167
Cost total	$0.063	$0.217
Preț de intrare	$0.250 / 1M	$5.000 / 1M
Preț de ieșire	$1.500 / 1M	$30.000 / 1M
Tokenuri de ieșire	2,204	1,956
Tokenuri de raționament	33,657	0
Timp de răspuns (mediu)	3.94s	1.93s
Timp de răspuns (maxim)	14.93s	5.56s
Timp de răspuns (total)	78.74s	38.64s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	9.1	10.0	75.0%	0		2.33s	570	4,305
GPT-5.5	6.9	7.9	66.7%	1		1.31s	213	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	6.8	10.0	50.0%	0		3.98s	455	5,510
GPT-5.5	6.8	10.0	50.0%	0		1.52s	447	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		14.93s	327	7,347
GPT-5.5	3.0	10.0	0.0%	0		5.56s	300	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		2.29s	279	2,952
GPT-5.5	10.0	10.0	100.0%	0		1.18s	222	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		4.21s	18	5,325
GPT-5.5	2.9	7.2	11.1%	1		1.31s	52	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.16s	96	1,488
GPT-5.5	10.0	10.0	100.0%	0		3.41s	124	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		1.91s	72	2,121
GPT-5.5	6.2	5.8	66.7%	1		1.15s	81	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	7.7	10.0	66.7%	0		5.30s	141	1,896
GPT-5.5	7.7	10.0	66.7%	0		1.29s	252	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	10.0	10.0	100.0%	0		3.80s	234	912
GPT-5.5	10.0	10.0	100.0%	0		3.90s	247	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite Preview	3.0	10.0	0.0%	0		2.68s	12	1,801
GPT-5.5	3.0	10.0	0.0%	0		5.01s	18	0

Comparație rapidă

Schimbă perechea de comparație

GPT-5.5nonevsQwen3.6 27Bmedium Mercury 2mediumvsGPT-5.5none DeepSeek V4 FlashhighvsGemini 3.1 Flash Lite Previewmedium Kimi K2.5mediumvsGPT-5.5none Gemini 3.1 Flash LiteminimalvsGPT-5.5none Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.2 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsQwen3.7 Maxnone DeepSeek V4 ProhighvsGPT-5.5none Gemini 3.1 Flash Lite PreviewmediumvsGPT-5.3 Chatnone Gemini 3.1 Flash Lite PreviewmediumvsStep 3.7 Flashlow DeepSeek V3.2mediumvsGPT-5.5none GPT-5.5nonevsMimo V2 Omnimedium