Navigare
AI BENCHY
Your ad here

AI BENCHY Compare

MoonshotAI: Kimi K2.5 vs xAI: Grok 4.20 Multi-Agent Beta

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-03-12

Metrică Kimi K2.5 Kimi K2.5 none Lansare: 2026-01-27 Grok 4.20 Multi-Agent Beta Grok 4.20 Multi-Agent Beta medium Lansare: 2026-03-12
Rang #54 #47
Scor mediu 4.1 4.9
Consistență 8.6 7.1
Cost per rezultat 0.295 97.178
Cost total $0.015 $4.859
Teste corecte
Rată de trecere pe încercare 39.6% 52.1%
Teste instabile 3 6
Rulări totale 48 48
Tokenuri de ieșire 2,000 293,634
Tokenuri de raționament 0 291,260
Timp de răspuns (mediu) 11.91s 9.08s
Timp de răspuns (maxim) 42.13s 35.28s
Timp de răspuns (total) 107.16s 127.09s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor mediu vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor mediu vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Kimi K2.5 2.7 7.9 11.1% 1 11.38s 363 0
Grok 4.20 Multi-Agent Beta 4.0 4.4 66.7% 2 3.77s 28,392 27,808
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Kimi K2.5 10.0 2.1 33.3% 1 19.16s 748 0
Grok 4.20 Multi-Agent Beta 10.0 10.0 0.0% 0 0ms 0 0
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Kimi K2.5 5.4 5.8 83.3% 1 42.13s 187 0
Grok 4.20 Multi-Agent Beta 9.9 10.0 100.0% 0 5.54s 25,306 25,051
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Kimi K2.5 4.0 10.0 33.3% 0 4.38s 29 0
Grok 4.20 Multi-Agent Beta 10.0 7.2 11.1% 1 24.67s 164,609 163,647
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Kimi K2.5 10.0 10.0 100.0% 0 4.00s 76 0
Grok 4.20 Multi-Agent Beta 4.0 2.8 66.7% 1 6.40s 15,848 15,746
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Kimi K2.5 5.5 10.0 50.0% 0 2.67s 60 0
Grok 4.20 Multi-Agent Beta 9.0 10.0 50.0% 0 4.63s 25,457 25,322
Puzzle Solving Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Kimi K2.5 10.0 10.0 0.0% 0 4.73s 317 0
Grok 4.20 Multi-Agent Beta 6.3 5.1 77.8% 2 5.01s 34,022 33,686
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
Kimi K2.5 10.0 10.0 100.0% 0 13.99s 220 0
Grok 4.20 Multi-Agent Beta 10.0 10.0 0.0% 0 0ms 0 0

Comparație rapidă

Schimbă perechea de comparație