Navigare
AI BENCHY
Your ad here

AI BENCHY Compare

Google: Gemini 2.5 Flash vs OpenAI: GPT-5.4

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-15

Metrică Gemini 2.5 Flash Gemini 2.5 Flash medium Lansare: 2025-06-17 GPT-5.4 GPT-5.4 medium Lansare: 2026-03-05
Rang #15 #9
Scor 8.0 8.5
Consistență 9.5 8.5
Cost per rezultat 2.619 6.601
Cost total $0.288 $0.793
Teste corecte
Rată de trecere pe încercare 72.9% 83.3%
Teste instabile 1 3
Rulări totale 48 48
Tokenuri de ieșire 1,370 1,756
Tokenuri de raționament 110,522 46,642
Timp de răspuns (mediu) 12.35s 20.05s
Timp de răspuns (maxim) 95.48s 100.41s
Timp de răspuns (total) 197.62s 320.87s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 7.8 10.0 66.7% 0 6.98s 249 8,832
GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 10.0 10.0 100.0% 0 28.44s 303 11,922
GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 10.0 10.0 100.0% 0 4.06s 279 2,325
GPT-5.4 10.0 10.0 100.0% 0 5.32s 234 804
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 5.9 7.2 55.6% 1 37.34s 18 80,702
GPT-5.4 5.3 7.2 44.4% 1 74.27s 61 34,748
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 4.8 10.0 0.0% 0 4.86s 92 1,899
GPT-5.4 4.7 3.1 33.3% 1 4.92s 145 321
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 9.8 10.0 100.0% 0 2.62s 69 1,203
GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Puzzle Solving Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 7.7 10.0 66.7% 0 3.94s 126 2,499
GPT-5.4 8.2 7.2 88.9% 1 9.13s 442 3,832
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Gemini 2.5 Flash 10.0 10.0 100.0% 0 6.20s 234 1,140
GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031

Comparație rapidă

Schimbă perechea de comparație