Comparație benchmark Qwen3.5 Plus 2026-02-15 vs Qwen3.6 Plus Preview vs GLM 5 TurboGLM 5 Turbo conduce la Scor cu 8.4. Qwen3.5 Plus 2026-02-15 conduce la Fiabilitate cu 10.0. Qwen3.6 Plus Preview are cel mai mic Cost total, $0.000. Qwen3.6 Plus Preview are cel mai rapid timp de răspuns, 15.25s.
Model recomandat: GLM 5 Turbo - Are cel mai bun scor aici (8.4) și răspunde de aproximativ 1.9x mai rapid decât celelalte modele din această comparație.
Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-18
Qwen3.6 Plus PreviewQwen3.6 Plus PreviewmediumModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.Lansare: 2026-04-20Disponibil gratuit
GLM 5 TurboGLM 5 TurbomediumModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.Lansare: 2026-03-15
Qwen3.6 Plus PreviewQwen3.6 Plus PreviewmediumModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.Lansare: 2026-04-20Disponibil gratuit
GLM 5 TurboGLM 5 TurbomediumModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.Lansare: 2026-03-15
Scor
8.0Scor mediu pe toate testele de benchmark.…
5.8Scor mediu pe toate testele de benchmark.…
8.4Scor mediu pe toate testele de benchmark.…
Rang
#28
#113
#21
Fiabilitate
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
N/DScorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
Consistență
8.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
9.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
8.5Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Teste corecte
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Timp expirat: 2Eroare API: 1Timp de răspuns (mediu)73.79sTimp de răspuns (maxim)266.69sTimp de răspuns (total)1033.07sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 8Răspuns greșit: 2Timp de răspuns (mediu)15.25sTimp de răspuns (maxim)43.55sTimp de răspuns (total)182.96sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Nu a urmat instrucțiunile: 1Fără răspuns: 1Timp expirat: 1Timp de răspuns (mediu)23.00sTimp de răspuns (maxim)194.23sTimp de răspuns (total)482.97sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
73.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
42.9%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
74.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
3Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
4Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Rulări totale
63Rulări totale…
57Rulări totale…
63Rulări totale…
Cost per rezultat
2.445Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
0.000Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
2.011Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
Cost total
$0.310Cost total (preț curent)…
$0.000Cost total (preț curent)…
$0.323Cost total (preț curent)…
Preț de intrare
$0.260 / 1MPreț de intrare…
$0.000 / 1MPreț de intrare…
$1.200 / 1MPreț de intrare…
Preț de ieșire
$1.560 / 1MPreț de ieșire…
$0.000 / 1MPreț de ieșire…
$4.000 / 1MPreț de ieșire…
Total tokenuri de intrare
40,918Total tokenuri de intrare…
32,639Total tokenuri de intrare…
35,593Total tokenuri de intrare…
Tokenuri de ieșire
2,159Tokenuri de ieșire…
1,153Tokenuri de ieșire…
12,245Tokenuri de ieșire…
Tokenuri de raționament
189,604Tokenuri de raționament…
62,197Tokenuri de raționament…
62,277Tokenuri de raționament…
Timp de răspuns (mediu)
73.79sTimp de răspuns (mediu)…
15.25sTimp de răspuns (mediu)…
23.00sTimp de răspuns (mediu)…
Timp de răspuns (maxim)
266.69sTimp de răspuns (maxim)…
43.55sTimp de răspuns (maxim)…
194.23sTimp de răspuns (maxim)…
Timp de răspuns (total)
1033.07sTimp de răspuns (total)…
182.96sTimp de răspuns (total)…
482.97sTimp de răspuns (total)…
Prezentare generare
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
#28 Qwen3.5 Plus 2026-02-15
medium
Cost
$0.011
Timp
125.5s
Tokenuri
7,040 tok
#113 Qwen3.6 Plus Preview
medium
Nu s-a generat încă niciun rezultat de prezentare pentru acest model.
7.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
83.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)45.78sTimp de răspuns (maxim)81.20sTimp de răspuns (total)91.57sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
45.78sTimp de răspuns (mediu)…
672Total tokenuri de intrare…
205Tokenuri de ieșire…
21,236Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
8.3Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
75.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)11.69sTimp de răspuns (maxim)19.37sTimp de răspuns (total)35.08sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
11.69sTimp de răspuns (mediu)…
501Total tokenuri de intrare…
61Tokenuri de ieșire…
5,812Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.82sTimp de răspuns (maxim)7.69sTimp de răspuns (total)19.26sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
44.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Răspuns greșit: 1Timp de răspuns (mediu)180.70sTimp de răspuns (maxim)266.69sTimp de răspuns (total)542.10sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
180.70sTimp de răspuns (mediu)…
6,950Total tokenuri de intrare…
420Tokenuri de ieșire…
80,595Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
9.8Scor mediu pe toate testele de benchmark.…
3.3Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
0msTimp de răspuns (mediu)…
0Total tokenuri de intrare…
0Tokenuri de ieșire…
0Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
8.2Scor mediu pe toate testele de benchmark.…
9.3Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)45.90sTimp de răspuns (maxim)95.57sTimp de răspuns (total)137.71sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.85sTimp de răspuns (maxim)46.85sTimp de răspuns (total)46.85sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
46.85sTimp de răspuns (mediu)…
14,934Total tokenuri de intrare…
421Tokenuri de ieșire…
7,906Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)34.95sTimp de răspuns (maxim)34.95sTimp de răspuns (total)34.95sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
34.95sTimp de răspuns (mediu)…
14,934Total tokenuri de intrare…
452Tokenuri de ieșire…
13,073Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)13.88sTimp de răspuns (maxim)13.88sTimp de răspuns (total)13.88sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)46.91sTimp de răspuns (maxim)46.91sTimp de răspuns (total)46.91sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
46.91sTimp de răspuns (mediu)…
7,782Total tokenuri de intrare…
270Tokenuri de ieșire…
14,916Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)14.95sTimp de răspuns (maxim)15.40sTimp de răspuns (total)29.90sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
14.95sTimp de răspuns (mediu)…
7,782Total tokenuri de intrare…
270Tokenuri de ieșire…
10,706Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.19sTimp de răspuns (maxim)6.42sTimp de răspuns (total)12.38sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)17.50sTimp de răspuns (maxim)17.50sTimp de răspuns (total)17.50sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
17.50sTimp de răspuns (mediu)…
444Total tokenuri de intrare…
35Tokenuri de ieșire…
16,680Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Eroare API: 1Timp de răspuns (mediu)22.08sTimp de răspuns (maxim)43.55sTimp de răspuns (total)66.23sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
22.08sTimp de răspuns (mediu)…
665Total tokenuri de intrare…
49Tokenuri de ieșire…
26,895Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
2.9Scor mediu pe toate testele de benchmark.…
4.4Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
22.2%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)71.07sTimp de răspuns (maxim)194.23sTimp de răspuns (total)213.22sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
1.6Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Timp de răspuns (mediu)79.86sTimp de răspuns (maxim)79.86sTimp de răspuns (total)79.86sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
79.86sTimp de răspuns (mediu)…
344Total tokenuri de intrare…
73Tokenuri de ieșire…
8,675Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
0msTimp de răspuns (mediu)…
0Total tokenuri de intrare…
0Tokenuri de ieșire…
0Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
6.1Scor mediu pe toate testele de benchmark.…
3.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)10.05sTimp de răspuns (maxim)10.05sTimp de răspuns (total)10.05sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)31.93sTimp de răspuns (maxim)31.93sTimp de răspuns (total)31.93sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
31.93sTimp de răspuns (mediu)…
699Total tokenuri de intrare…
101Tokenuri de ieșire…
7,704Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
6.5Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)3.40sTimp de răspuns (maxim)3.40sTimp de răspuns (total)3.40sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.40sTimp de răspuns (mediu)…
381Total tokenuri de intrare…
27Tokenuri de ieșire…
1,383Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.38sTimp de răspuns (maxim)5.70sTimp de răspuns (total)10.77sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)32.50sTimp de răspuns (maxim)49.12sTimp de răspuns (total)65.01sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
32.50sTimp de răspuns (mediu)…
696Total tokenuri de intrare…
301Tokenuri de ieșire…
13,853Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.3Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 2Timp de răspuns (mediu)7.52sTimp de răspuns (maxim)7.52sTimp de răspuns (total)7.52sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.52sTimp de răspuns (mediu)…
183Total tokenuri de intrare…
27Tokenuri de ieșire…
2,998Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
8.7Scor mediu pe toate testele de benchmark.…
7.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
77.8%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)5.23sTimp de răspuns (maxim)7.26sTimp de răspuns (total)15.69sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)7.54sTimp de răspuns (maxim)7.54sTimp de răspuns (total)7.54sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.54sTimp de răspuns (mediu)…
8,193Total tokenuri de intrare…
309Tokenuri de ieșire…
909Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)5.87sTimp de răspuns (maxim)5.87sTimp de răspuns (total)5.87sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
5.87sTimp de răspuns (mediu)…
8,193Total tokenuri de intrare…
267Tokenuri de ieșire…
1,330Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)9.84sTimp de răspuns (maxim)9.84sTimp de răspuns (total)9.84sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)103.81sTimp de răspuns (maxim)103.81sTimp de răspuns (total)103.81sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
103.81sTimp de răspuns (mediu)…
204Total tokenuri de intrare…
24Tokenuri de ieșire…
17,130Tokenuri de raționament…
Qwen3.6 Plus PreviewModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Eroare API: 1Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
0msTimp de răspuns (mediu)…
0Total tokenuri de intrare…
0Tokenuri de ieșire…
0Tokenuri de raționament…
GLM 5 TurboModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)40.17sTimp de răspuns (maxim)40.17sTimp de răspuns (total)40.17sUn test este considerat trecut complet doar dacă toate rulările lui trec.…