AI BENCHY Compare

Google: Gemini 3.1 Flash Lite vs OpenAI: GPT-5.4

Rezumat

Comparație benchmark Gemini 3.1 Flash Lite vs GPT-5.4: Gemini 3.1 Flash Lite conduce la scorul mediu cu 6.1 vs 5.8. Gemini 3.1 Flash Lite are costul de benchmark mai mic, $0.013 vs $0.122. Gemini 3.1 Flash Lite este mai rapid cu 1.06s vs 1.42s, cu rate de reușită de 52.4% vs 36.5%.

Model recomandat: Gemini 3.1 Flash Lite - Are cel mai bun scor aici (6.1) și costă de aproximativ 9.4x mai puțin decât GPT-5.4.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-18

Metrică	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite none Lansare: 2026-05-08	GPT-5.4 GPT-5.4 none Lansare: 2026-03-05

Metrică	Gemini 3.1 Flash Lite Gemini 3.1 Flash Lite none Lansare: 2026-05-08	GPT-5.4 GPT-5.4 none Lansare: 2026-03-05
Scor	6.1	5.8
Rang	#96	#112
Fiabilitate	10.0	10.0
Consistență	8.6	9.2
Teste corecte
Rată de trecere pe încercare	52.4%	36.5%
Teste instabile	4	2
Rulări totale	63	63
Cost per rezultat	0.144	1.740
Cost total	$0.013	$0.122
Preț de intrare	$0.250 / 1M	$2.500 / 1M
Preț de ieșire	$1.500 / 1M	$15.000 / 1M
Total tokenuri de intrare	36,710	34,212
Tokenuri de ieșire	2,484	2,417
Tokenuri de raționament	0	0
Timp de răspuns (mediu)	1.06s	1.42s
Timp de răspuns (maxim)	2.97s	2.95s
Timp de răspuns (total)	22.35s	29.87s

Prezentare generare

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#96 Gemini 3.1 Flash Lite

none

Cost: $0.001
Timp: 4.5s
Tokenuri: 727 tok

#112 GPT-5.4

none

Cost: $0.026
Timp: 18.1s
Tokenuri: 1,792 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	7.5	8.4	66.7%	1		1.07s	506	639	0
GPT-5.4	3.2	8.0	8.3%	1		1.21s	606	406	0

Programare	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	5.5	10.0	33.3%	0		938ms	8,128	666	0
GPT-5.4	5.5	10.0	33.3%	0		1.62s	7,305	516	0

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		2.73s	12,870	357	0
GPT-5.4	3.0	10.0	0.0%	0		2.89s	11,019	291	0

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		843ms	7,267	279	0
GPT-5.4	10.0	10.0	100.0%	0		1.04s	7,140	222	0

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	2.9	7.2	11.1%	1		762ms	647	15	0
GPT-5.4	5.3	7.2	44.4%	1		1.07s	723	50	0

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	4.0	10.0	0.0%	0		992ms	486	63	0
GPT-5.4	4.4	9.9	0.0%	0		1.78s	477	184	0

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		859ms	619	72	0
GPT-5.4	6.5	10.0	50.0%	0		1.07s	660	81	0

Rezolvare de puzzle-uri	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	6.3	4.8	66.7%	2		720ms	570	150	0
GPT-5.4	5.6	9.8	33.3%	0		1.44s	642	381	0

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	10.0	10.0	100.0%	0		2.97s	5,457	234	0
GPT-5.4	10.0	10.0	100.0%	0		2.75s	5,445	246	0

Cultură generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de intrare	Tokenuri de ieșire	Tokenuri de raționament
Gemini 3.1 Flash Lite	3.0	10.0	0.0%	0		733ms	160	9	0
GPT-5.4	3.0	10.0	0.0%	0		990ms	195	40	0

Comparație rapidă

Schimbă perechea de comparație

North Mini CodemediumDisponibil gratuitvsGPT-5.4none Gemini 3.1 Flash LitenonevsQwen3.5-35B-A3Bmedium Gemini 3.1 Flash LitenonevsNemotron 3 SupermediumDisponibil gratuit North Mini CodemediumDisponibil gratuitvsGemini 3.1 Flash Litenone Gemini 3.1 Flash LiteminimalvsGPT-5.4none Gemini 3.1 Flash LitenonevsQwen3.6 27Bmedium Gemini 3.1 Flash LitenonevsStep 3.5 Flashmedium GPT-5.4nonevsQwen3.5-35B-A3Bmedium Gemma 4 31BmediumDisponibil gratuitvsGPT-5.4none Nemotron 3 SupermediumDisponibil gratuitvsGPT-5.4none Gemini 3.1 Flash LitenonevsGPT-5 Nanomedium Gemini 3.1 Flash Litenonevsgpt-oss-120bmediumDisponibil gratuit