Navigare
AI BENCHY
Your ad here

AI BENCHY Compare

OpenAI: GPT-5.4 Mini vs xAI: Grok 4.20 Multi-Agent Beta

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-17

Metrică GPT-5.4 Mini GPT-5.4 Mini none Lansare: 2026-03-17 Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Lansare: 2026-03-12
Rang #66 #44
Scor 4.8 6.2
Consistență 8.6 7.2
Cost per rezultat 0.737 82.962
Cost total $0.030 $4.978
Teste corecte
Rată de trecere pe încercare 31.4% 54.9%
Teste instabile 3 6
Rulări totale 51 51
Tokenuri de ieșire 2,085 298,948
Tokenuri de raționament 0 296,529
Timp de răspuns (mediu) 1.17s 8.64s
Timp de răspuns (maxim) 2.52s 35.28s
Timp de răspuns (total) 19.82s 129.64s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 Mini 3.1 8.1 8.3% 1 929ms 654 0
Grok 4.20 Multi-Agent Beta 6.9 5.8 75.0% 2 3.46s 33,706 33,077
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 Mini 3.0 10.0 0.0% 0 2.52s 298 0
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 Mini 10.0 10.0 100.0% 0 1.30s 222 0
Grok 4.20 Multi-Agent Beta 10.0 10.0 100.0% 0 5.54s 25,306 25,051
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 Mini 3.5 4.4 33.3% 2 937ms 88 0
Grok 4.20 Multi-Agent Beta 2.9 7.2 11.1% 1 24.67s 164,609 163,647
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 Mini 4.8 10.0 0.0% 0 1.82s 174 0
Grok 4.20 Multi-Agent Beta 5.8 2.8 66.7% 1 6.40s 15,848 15,746
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 Mini 6.3 10.0 50.0% 0 728ms 101 0
Grok 4.20 Multi-Agent Beta 8.3 10.0 50.0% 0 4.63s 25,457 25,322
Puzzle Solving Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 Mini 5.4 10.0 33.3% 0 860ms 293 0
Grok 4.20 Multi-Agent Beta 7.2 5.1 77.8% 2 5.01s 34,022 33,686
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 Mini 3.0 10.0 0.0% 0 2.32s 255 0
Grok 4.20 Multi-Agent Beta 3.0 10.0 0.0% 0 0ms 0 0

Comparație rapidă

Schimbă perechea de comparație