Navigare
AI BENCHY
Your ad here

AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.4 Mini

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-17

Metrică Gemini 2.5 Flash Gemini 2.5 Flash none Lansare: 2025-06-17 GPT-5.4 Mini GPT-5.4 Mini medium Lansare: 2026-03-17
Rang #48 #34
Scor 5.9 7.1
Consistență 9.1 7.2
Cost per rezultat 0.192 3.610
Cost total $0.012 $0.289
Teste corecte
Rată de trecere pe încercare 41.2% 68.6%
Teste instabile 2 6
Rulări totale 51 51
Tokenuri de ieșire 1,273 1,708
Tokenuri de raționament 0 58,019
Timp de răspuns (mediu) 888ms 15.66s
Timp de răspuns (maxim) 4.39s 102.91s
Timp de răspuns (total) 15.10s 266.14s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 3.0 10.0 0.0% 0 582ms 102 0
GPT-5.4 Mini 8.6 7.9 91.7% 1 4.05s 296 2,876
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 3.0 10.0 0.0% 0 4.39s 366 0
GPT-5.4 Mini 10.0 10.0 100.0% 0 17.81s 317 4,317
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 10.0 10.0 100.0% 0 652ms 279 0
GPT-5.4 Mini 10.0 10.0 100.0% 0 2.43s 234 650
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 5.9 7.2 55.6% 1 495ms 12 0
GPT-5.4 Mini 4.1 4.4 44.5% 2 65.31s 60 43,286
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 5.0 10.0 0.0% 0 615ms 78 0
GPT-5.4 Mini 4.5 10.0 0.0% 0 3.72s 150 510
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 8.0 6.8 66.7% 1 672ms 70 0
GPT-5.4 Mini 7.4 6.5 66.7% 1 2.50s 129 1,337
Puzzle Solving Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 5.7 10.0 33.3% 0 576ms 132 0
GPT-5.4 Mini 6.8 7.9 55.6% 1 4.33s 271 2,449
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 10.0 10.0 100.0% 0 1.91s 234 0
GPT-5.4 Mini 4.7 1.6 66.7% 1 9.62s 251 2,594

Comparație rapidă

Schimbă perechea de comparație