Laguna M.1Laguna M.1mediumModel arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.Lansare: 2026-04-28Disponibil gratuit
Scor
6.1Scor mediu pe toate testele de benchmark.…
6.9Scor mediu pe toate testele de benchmark.…
Rang
#94
#74
Fiabilitate
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
Consistență
7.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
8.3Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Teste corecte
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 9Nu a urmat instrucțiunile: 2Timp expirat: 1Timp de răspuns (mediu)43.11sTimp de răspuns (maxim)204.02sTimp de răspuns (total)560.45sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 4Fără răspuns: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)14.38sTimp de răspuns (maxim)53.14sTimp de răspuns (total)215.70sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
55.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
64.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
7Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
3Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Rulări totale
60Rulări totale…
57Rulări totale…
Cost per rezultat
0.945Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
0.000Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
7.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
58.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)25.50sTimp de răspuns (maxim)37.73sTimp de răspuns (total)51.00sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
25.50sTimp de răspuns (mediu)…
1,221Tokenuri de ieșire…
21,184Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
7.7Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.87sTimp de răspuns (maxim)6.30sTimp de răspuns (total)14.62sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
6.6Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)47.80sTimp de răspuns (maxim)54.86sTimp de răspuns (total)95.59sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
47.80sTimp de răspuns (mediu)…
604Tokenuri de ieșire…
30,144Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
4.3Scor mediu pe toate testele de benchmark.…
1.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)35.61sTimp de răspuns (maxim)35.61sTimp de răspuns (total)35.61sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)65.96sTimp de răspuns (maxim)65.96sTimp de răspuns (total)65.96sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
65.96sTimp de răspuns (mediu)…
578Tokenuri de ieșire…
17,984Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Timp de răspuns (mediu)53.14sTimp de răspuns (maxim)53.14sTimp de răspuns (total)53.14sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
1.7Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)21.42sTimp de răspuns (maxim)21.42sTimp de răspuns (total)21.42sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
21.42sTimp de răspuns (mediu)…
453Tokenuri de ieșire…
10,560Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.93sTimp de răspuns (maxim)5.03sTimp de răspuns (total)9.86sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
4.4Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
55.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
2Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Timp expirat: 1Răspuns greșit: 1Timp de răspuns (mediu)204.02sTimp de răspuns (maxim)204.02sTimp de răspuns (total)204.02sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
204.02sTimp de răspuns (mediu)…
237Tokenuri de ieșire…
64,448Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
5.3Scor mediu pe toate testele de benchmark.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
44.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)24.14sTimp de răspuns (maxim)45.83sTimp de răspuns (total)72.43sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)17.51sTimp de răspuns (maxim)17.51sTimp de răspuns (total)17.51sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
17.51sTimp de răspuns (mediu)…
202Tokenuri de ieșire…
4,608Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
0.0Scor mediu pe toate testele de benchmark.…
0.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)11.90sTimp de răspuns (maxim)11.90sTimp de răspuns (total)11.90sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
11.90sTimp de răspuns (mediu)…
382Tokenuri de ieșire…
4,096Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)4.30sTimp de răspuns (maxim)6.00sTimp de răspuns (total)8.59sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
44.4%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)19.81sTimp de răspuns (maxim)21.31sTimp de răspuns (total)39.63sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
19.81sTimp de răspuns (mediu)…
869Tokenuri de ieșire…
13,440Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
3.8Scor mediu pe toate testele de benchmark.…
5.8Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Fără răspuns: 1Răspuns greșit: 1Timp de răspuns (mediu)7.57sTimp de răspuns (maxim)9.69sTimp de răspuns (total)15.14sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)33.30sTimp de răspuns (maxim)33.30sTimp de răspuns (total)33.30sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
33.30sTimp de răspuns (mediu)…
558Tokenuri de ieșire…
6,976Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
10.0Scor mediu pe toate testele de benchmark.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)6.31sTimp de răspuns (maxim)6.31sTimp de răspuns (total)6.31sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)20.13sTimp de răspuns (maxim)20.13sTimp de răspuns (total)20.13sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
20.13sTimp de răspuns (mediu)…
234Tokenuri de ieșire…
6,144Tokenuri de raționament…
Laguna M.1Model arhivat: acest model nu mai este actualizat și nu mai este testat pe teste noi.
0.0Scor mediu pe toate testele de benchmark.…
0.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)0msTimp de răspuns (maxim)0msTimp de răspuns (total)0msUn test este considerat trecut complet doar dacă toate rulările lui trec.…