Navigare
AI BENCHY
Advertise here

AI BENCHY Compare

StepFun: Step 3.7 Flash vs Z.ai: GLM 5.2

Rezumat

Comparație benchmark Step 3.7 Flash vs GLM 5.2: Scorul mediu este practic egal la 7.1 vs 7.1. GLM 5.2 are costul de benchmark mai mic, $0.076 vs $1.148. GLM 5.2 este mai rapid cu 6.34s vs 64.46s, cu rate de reușită de 63.5% vs 60.3%.

Model recomandat: GLM 5.2 - Are cel mai bun scor aici (7.1) și costă de aproximativ 15.2x mai puțin decât Step 3.7 Flash.

Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-17

Metrică Step 3.7 Flash Step 3.7 Flash high Lansare: 2026-05-29 GLM 5.2 GLM 5.2 none Lansare: 2026-06-17
Scor 7.1 7.1
Rang #63 #61
Fiabilitate 10.0 9.9
Consistență 8.2 9.6
Teste corecte
Rată de trecere pe încercare 63.5% 60.3%
Teste instabile 4 1
Rulări totale 63 63
Cost per rezultat 10.434 0.628
Cost total $1.148 $0.076
Preț de intrare $0.200 / 1M $1.400 / 1M
Preț de ieșire $1.150 / 1M $4.400 / 1M
Total tokenuri de intrare 38,391 38,671
Tokenuri de ieșire 991,355 4,817
Tokenuri de raționament 0 0
Timp de răspuns (mediu) 64.46s 6.34s
Timp de răspuns (maxim) 364.99s 20.69s
Timp de răspuns (total) 1353.57s 133.19s

Generation showcase

Hamster playing table tennis

Prompt: Create a detailed SVG illustration of a hamster playing table tennis.

#63 Step 3.7 Flash

high
Cost
$0.007
Time
63.6s
Tokens
6,030 tok

#61 GLM 5.2

none
Invalid SVG
Cost
$0.033
Time
87.7s
Tokens
7,455 tok

Top modele după scor

Scor vs cost total

Timp de răspuns (mediu)

Scor vs Timp de răspuns (mediu)

Total tokenuri de ieșire

Scor vs Total tokenuri de ieșire

Defalcare pe categorii

Trucuri anti-AI Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 10.0 10.0 100.0% 0 13.40s 696 42,656 0
GLM 5.2 8.3 10.0 75.0% 0 3.70s 567 313 0
Programare Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 4.0 6.0 22.2% 1 206.21s 6,057 327,340 0
GLM 5.2 3.7 9.5 0.0% 0 7.55s 7,263 1,958 0
Combinat Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 10.0 10.0 100.0% 0 13.01s 13,638 8,802 0
GLM 5.2 10.0 10.0 100.0% 0 20.69s 14,296 1,489 0
Parsare și extragere de date Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 10.0 10.0 100.0% 0 14.72s 7,368 23,113 0
GLM 5.2 10.0 10.0 100.0% 0 7.17s 7,113 204 0
Specific domeniului Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 4.1 4.4 44.5% 2 149.64s 783 410,502 0
GLM 5.2 5.3 10.0 33.3% 0 6.50s 696 27 0
Inteligență generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 5.5 10.0 0.0% 0 4.17s 510 2,862 0
GLM 5.2 6.1 3.1 66.7% 1 4.42s 480 82 0
Respectarea instrucțiunilor Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 9.8 10.0 100.0% 0 1.52s 705 2,010 0
GLM 5.2 9.8 10.0 100.0% 0 3.84s 642 66 0
Rezolvare de puzzle-uri Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 5.3 7.2 44.4% 1 10.22s 711 25,422 0
GLM 5.2 7.7 10.0 66.7% 0 3.31s 618 265 0
Apelare instrumente Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 10.0 10.0 100.0% 0 2.79s 7,701 1,172 0
GLM 5.2 10.0 10.0 100.0% 0 15.76s 6,807 400 0
Cultură generală Scor Consistență Rată de trecere pe încercare Teste instabile Teste corecte Timp de răspuns (mediu) Tokenuri de intrare Tokenuri de ieșire Tokenuri de raționament
Step 3.7 Flash 3.0 10.0 0.0% 0 149.34s 222 147,476 0
GLM 5.2 3.0 10.0 0.0% 0 3.41s 189 13 0

Comparație rapidă

Schimbă perechea de comparație