Navigare
AI BENCHY
Advertise here

AI BENCHY Compare

Modele comparate

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-05-26

Metrică GLM 5 GLM 5 medium Lansare: 2026-02-12 GLM 5.1 GLM 5.1 medium Lansare: 2026-04-07 GLM 5 GLM 5 none Lansare: 2026-02-12 GLM 5.1 GLM 5.1 none Lansare: 2026-04-07
Scor 8.2 7.4 6.3 5.8
Rang #18 #54 #91 #102
Fiabilitate 10.0 3.3 10.0 10.0
Consistență 8.4 8.3 9.7 8.4
Teste corecte
Rată de trecere pe încercare 81.7% 71.7% 46.7% 43.3%
Teste instabile 4 4 1 4
Rulări totale 98 98 98 136
Cost per rezultat 1.818 2.890 0.295 0.936
Cost total $0.255 $0.347 $0.027 $0.066
Preț de intrare $0.600 / 1M $0.980 / 1M $0.600 / 1M $0.980 / 1M
Preț de ieșire $1.920 / 1M $3.080 / 1M $1.920 / 1M $3.080 / 1M
Tokenuri de ieșire 21,596 13,107 3,581 4,698
Tokenuri de raționament 105,424 88,661 0 0
Timp de răspuns (mediu) 32.67s 33.45s 3.95s 4.20s
Timp de răspuns (maxim) 99.85s 172.60s 11.07s 32.57s
Timp de răspuns (total) 392.01s 635.63s 51.38s 83.95s

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 10.0 10.0 100.0% 0 23.66s 480 7,056
GLM 5.1 10.0 10.0 100.0% 0 8.31s 401 5,122
GLM 5 4.8 10.0 25.0% 0 2.37s 275 0
GLM 5.1 4.0 6.3 25.0% 2 2.11s 305 0
Programare Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 10.0 10.0 100.0% 0 89.47s 2,985 45,706
GLM 5.1 4.7 1.6 66.7% 2 145.56s 4,727 34,384
GLM 5 4.6 6.8 16.7% 1 5.18s 424 0
GLM 5.1 4.3 9.5 0.0% 0 6.33s 519 0
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 10.0 10.0 100.0% 0 28.96s 662 3,242
GLM 5.1 9.5 10.0 100.0% 0 43.11s 327 4,206
GLM 5 3.0 10.0 0.0% 0 4.98s 406 0
GLM 5.1 2.8 2.1 33.3% 1 32.57s 2,129 0
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 7.1 5.6 83.3% 1 8.90s 567 3,734
GLM 5.1 10.0 10.0 100.0% 0 9.33s 991 4,552
GLM 5 10.0 10.0 100.0% 0 5.78s 203 0
GLM 5.1 10.0 10.0 100.0% 0 1.08s 204 0
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 3.5 4.4 33.3% 2 0ms 13,176 14,137
GLM 5.1 5.3 10.0 33.3% 0 29.77s 969 11,314
GLM 5 3.0 10.0 0.0% 0 2.24s 19 0
GLM 5.1 2.9 7.2 11.1% 1 1.99s 24 0
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 6.1 3.1 66.7% 1 14.69s 2,020 2,248
GLM 5.1 10.0 10.0 100.0% 0 20.95s 2,875 2,875
GLM 5 10.0 10.0 100.0% 0 3.27s 103 0
GLM 5.1 5.0 10.0 0.0% 0 790ms 39 0
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 10.0 10.0 100.0% 0 7.25s 1,001 2,129
GLM 5.1 6.4 5.8 66.7% 1 7.47s 204 1,617
GLM 5 10.0 10.0 100.0% 0 1.48s 61 0
GLM 5.1 9.8 10.0 100.0% 0 1.98s 750 0
Rezolvare de puzzle-uri Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 10.0 10.0 100.0% 0 11.33s 71 13,728
GLM 5.1 8.2 7.2 88.9% 1 31.64s 2,531 22,412
GLM 5 7.7 10.0 66.7% 0 1.91s 1,857 0
GLM 5.1 7.7 10.0 66.7% 0 1.45s 417 0
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 10.0 10.0 100.0% 0 15.93s 233 994
GLM 5.1 3.0 10.0 0.0% 0 0ms 0 0
GLM 5 10.0 10.0 100.0% 0 11.07s 220 0
GLM 5.1 10.0 10.0 100.0% 0 10.68s 300 0
Cultură generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de ieșire Tokenuri de raționament
GLM 5 3.0 10.0 0.0% 0 67.37s 401 12,450
GLM 5.1 3.0 10.0 0.0% 0 29.40s 82 2,179
GLM 5 3.0 10.0 0.0% 0 3.62s 13 0
GLM 5.1 3.0 10.0 0.0% 0 2.34s 11 0

Comparație rapidă

Schimbă perechea de comparație