Compară Grafice Metodologie

Limbă:

❤️ Made by XCS

AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.4

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică	Google: Gemini 2.5 Flash none Lansare: 2025-06-17	OpenAI: GPT-5.4 medium Lansare: 2026-03-05
Rang	#38	#9
Scor mediu	5.2	8.0
Consistență	9.1	8.5
Cost per rezultat	0.191	6.601
Cost total	$0.012	$0.793
Teste corecte
Rată de trecere pe încercare	43.8%	83.3%
Teste instabile	2	3
Rulări totale	48 (16 x 3)	48 (16 x 3)
Tokenuri de ieșire	1,270	1,756
Tokenuri de raționament	0	46,642
Timp de răspuns (mediu)	923ms	20.05s
Timp de răspuns (maxim)	4.39s	100.41s
Timp de răspuns (total)	14.78s	320.87s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 2.5 Flash	10.0	10.0	0.0%	0		668ms	99	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		5.02s	216	1,466

Combinat	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 2.5 Flash	10.0	10.0	0.0%	0		4.39s	366	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		20.57s	301	3,543

Parsare și extragere de date	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 2.5 Flash	9.9	10.0	100.0%	0		652ms	279	0
OpenAI: GPT-5.4	9.9	10.0	100.0%	0		5.32s	234	804

Specific domeniului	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 2.5 Flash	4.0	7.2	55.6%	1		495ms	12	0
OpenAI: GPT-5.4	4.0	7.2	44.4%	1		74.27s	61	34,748

Inteligență generală	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 2.5 Flash	5.0	10.0	0.0%	0		615ms	78	0
OpenAI: GPT-5.4	5.0	3.1	33.3%	1		4.92s	145	321

Respectarea instrucțiunilor	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 2.5 Flash	9.0	6.8	66.7%	1		672ms	70	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		3.11s	93	897

Puzzle Solving	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 2.5 Flash	4.7	10.0	33.3%	0		576ms	132	0
OpenAI: GPT-5.4	7.0	7.2	88.9%	1		9.13s	442	3,832

Apelare instrumente	Scor	Consistență	Rată de trecere pe încercare	Teste instabile	Teste corecte	Timp de răspuns (mediu)	Tokenuri de ieșire	Tokenuri de raționament
Google: Gemini 2.5 Flash	10.0	10.0	100.0%	0		1.91s	234	0
OpenAI: GPT-5.4	10.0	10.0	100.0%	0		13.28s	264	1,031

Comparație rapidă

Schimbă perechea de comparație

Gemini 2.5 FlashnonevsMercury 2medium Gemini 2.5 Flashnonevsgpt-oss-120bmediumDisponibil gratuit Gemini 3.1 Flash Lite PreviewhighvsGPT-5.4medium Gemini 3 Flash PreviewlowvsGPT-5.4medium Gemini 2.5 FlashnonevsQwen3.5-35B-A3Bmedium Gemini 2.5 FlashnonevsGPT-5 Nanomedium Gemini 2.5 FlashnonevsMiniMax M2.5medium Gemini 3.1 Flash Lite PreviewlowvsGPT-5.4medium Gemini 2.5 FlashnonevsGPT-5 Minimedium Gemini 3 Flash PreviewnonevsGPT-5.4medium Gemini 3.1 Flash Lite PreviewnonevsGPT-5.4medium Gemini 2.5 FlashnonevsGrok 4.1 Fastmedium