Navigare
AI BENCHY
Compară Grafice Metodologie
❤️ Made by XCS
Your ad here

AI BENCHY Compare

Google: Gemini 3.1 Pro Preview vs OpenAI: GPT-5.4

Compară:

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-06

Metrică Google: Gemini 3.1 Pro Preview medium Lansare: 2026-02-19 OpenAI: GPT-5.4 medium Lansare: 2026-03-05
Scor mediu 9.3 8.2
Rang #2 #7
Teste corecte
Consistență 10.0 8.9
Cost per rezultat 3.544 6.533
Cost total $0.497 $0.784
Rată de trecere pe încercare 93.3% 86.7%
Teste instabile 0 2
common.totalRuns 45 (15 x 3) 45 (15 x 3)
Tokenuri de ieșire 1,413 1,611
Tokenuri de raționament 34,477 46,321
Timp de răspuns (mediu) 17.20s 21.06s
Timp de răspuns (maxim) 40.61s 100.41s
Timp de răspuns (total) 137.59s 315.95s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Google: Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.52s 106 2,533
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 5.02s 216 1,466
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Google: Gemini 3.1 Pro Preview 9.0 10.0 100.0% 0 40.61s 432 9,281
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 20.57s 301 3,543
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Google: Gemini 3.1 Pro Preview 9.9 10.0 100.0% 0 7.72s 279 3,904
OpenAI: GPT-5.4 9.9 10.0 100.0% 0 5.32s 234 804
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Google: Gemini 3.1 Pro Preview 7.0 10.0 66.7% 0 32.73s 18 12,424
OpenAI: GPT-5.4 4.0 7.2 44.4% 1 74.27s 61 34,748
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Google: Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 9.56s 72 2,236
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 3.11s 93 897
Puzzle Solving Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Google: Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 7.15s 232 3,117
OpenAI: GPT-5.4 7.0 7.2 88.9% 1 9.13s 442 3,832
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Google: Gemini 3.1 Pro Preview 10.0 10.0 100.0% 0 23.15s 274 982
OpenAI: GPT-5.4 10.0 10.0 100.0% 0 13.28s 264 1,031

Comparație rapidă

Schimbă perechea de comparație