Navigare
AI BENCHY
Your ad here

AI BENCHY Compare

OpenAI: GPT-5.4 vs xAI: Grok 4.20 Multi-Agent Beta

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-12

Metrică GPT-5.4 GPT-5.4 none Lansare: 2026-03-05 Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Lansare: 2026-03-12
Rang #51 #47
Scor mediu 4.5 4.9
Consistență 8.9 7.1
Cost per rezultat 1.562 97.178
Cost total $0.094 $4.859
Teste corecte
Rată de trecere pe încercare 41.7% 52.1%
Teste instabile 2 6
Rulări totale 48 48
Tokenuri de ieșire 1,819 293,634
Tokenuri de raționament 0 291,260
Timp de răspuns (mediu) 1.48s 9.08s
Timp de răspuns (maxim) 2.89s 35.28s
Timp de răspuns (total) 23.64s 127.09s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor mediu vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 10.0 7.3 11.1% 1 1.41s 388 0
Grok 4.20 Multi-Agent Beta 4.0 4.4 66.7% 2 3.77s 28,392 27,808
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 10.0 10.0 0.0% 0 2.89s 291 0
Grok 4.20 Multi-Agent Beta 10.0 10.0 0.0% 0 0ms 0 0
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 9.9 10.0 100.0% 0 1.04s 222 0
Grok 4.20 Multi-Agent Beta 9.9 10.0 100.0% 0 5.54s 25,306 25,051
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 4.0 7.2 44.4% 1 1.07s 50 0
Grok 4.20 Multi-Agent Beta 10.0 7.2 11.1% 1 24.67s 164,609 163,647
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 3.0 9.9 0.0% 0 1.78s 184 0
Grok 4.20 Multi-Agent Beta 4.0 2.8 66.7% 1 6.40s 15,848 15,746
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 5.5 10.0 50.0% 0 1.07s 81 0
Grok 4.20 Multi-Agent Beta 9.0 10.0 50.0% 0 4.63s 25,457 25,322
Puzzle Solving Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 4.0 9.8 33.3% 0 1.52s 357 0
Grok 4.20 Multi-Agent Beta 6.3 5.1 77.8% 2 5.01s 34,022 33,686
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GPT-5.4 10.0 10.0 100.0% 0 2.75s 246 0
Grok 4.20 Multi-Agent Beta 10.0 10.0 0.0% 0 0ms 0 0

Comparație rapidă

Schimbă perechea de comparație