Comparație benchmark MiniMax M2.7 vs Grok 4.20: MiniMax M2.7 conduce la scorul mediu cu 5.2 vs 4.4. Grok 4.20 are costul de benchmark mai mic, $0.057 vs $0.075. Grok 4.20 este mai rapid cu 1.11s vs 38.18s, cu rate de reușită de 46.0% vs 28.6%.
Model recomandat: MiniMax M2.7 - Are cel mai puternic scor din această comparație (5.2) și cel mai bun echilibru între cost și timp de răspuns dintre toate cele 2 modele.
Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-07-02
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
N/DScorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
Consistență
6.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
8.5Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 10Formatare suplimentară: 1Apel de instrument invalid: 1Timp de răspuns (mediu)1.11sTimp de răspuns (maxim)6.04sTimp de răspuns (total)19.96sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
46.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
28.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
8Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Rulări totale
63Rulări totale…
54Rulări totale…
Cost per rezultat
2.494Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
1.570Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
Cost total
$0.075Cost total (preț curent)…
$0.057Cost total (preț curent)…
Preț de intrare
$0.180 / 1MPreț de intrare…
$1.250 / 1MPreț de intrare…
Preț de ieșire
$0.720 / 1MPreț de ieșire…
$2.500 / 1MPreț de ieșire…
Total tokenuri de intrare
34,371Total tokenuri de intrare…
41,313Total tokenuri de intrare…
Tokenuri de ieșire
8,981Tokenuri de ieșire…
1,923Tokenuri de ieșire…
Tokenuri de raționament
89,812Tokenuri de raționament…
0Tokenuri de raționament…
Timp de răspuns (mediu)
38.18sTimp de răspuns (mediu)…
1.11sTimp de răspuns (mediu)…
Timp de răspuns (maxim)
196.21sTimp de răspuns (maxim)…
6.04sTimp de răspuns (maxim)…
Timp de răspuns (total)
763.60sTimp de răspuns (total)…
19.96sTimp de răspuns (total)…
Prezentare generare
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
6.3Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
83.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)40.32sTimp de răspuns (maxim)117.04sTimp de răspuns (total)161.28sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
25.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)501msTimp de răspuns (maxim)839msTimp de răspuns (total)2.01sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
9.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Fără răspuns: 1Timp de răspuns (mediu)101.89sTimp de răspuns (maxim)196.21sTimp de răspuns (total)305.67sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)1.22sTimp de răspuns (maxim)1.22sTimp de răspuns (total)1.22sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
1.6Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)41.03sTimp de răspuns (maxim)41.03sTimp de răspuns (total)41.03sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)6.04sTimp de răspuns (maxim)6.04sTimp de răspuns (total)6.04sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)21.95sTimp de răspuns (maxim)24.88sTimp de răspuns (total)43.89sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)522msTimp de răspuns (maxim)537msTimp de răspuns (total)1.04sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 2Răspuns greșit: 1Timp de răspuns (mediu)19.00sTimp de răspuns (maxim)21.63sTimp de răspuns (total)38.01sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Formatare suplimentară: 1Timp de răspuns (mediu)687msTimp de răspuns (maxim)821msTimp de răspuns (total)2.06sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
2.5Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)38.70sTimp de răspuns (maxim)38.70sTimp de răspuns (total)38.70sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)659msTimp de răspuns (maxim)659msTimp de răspuns (total)659msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)12.80sTimp de răspuns (maxim)15.23sTimp de răspuns (total)25.60sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)445msTimp de răspuns (maxim)505msTimp de răspuns (total)889msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
55.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)24.87sTimp de răspuns (maxim)46.29sTimp de răspuns (total)74.61sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)473msTimp de răspuns (maxim)502msTimp de răspuns (total)1.42sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
1.6Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)12.05sTimp de răspuns (maxim)12.05sTimp de răspuns (total)12.05sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.63sTimp de răspuns (maxim)4.63sTimp de răspuns (total)4.63sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)22.77sTimp de răspuns (maxim)22.77sTimp de răspuns (total)22.77sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
0.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…