Comparație benchmark Granite 4.1 8B vs Qwen3 Coder Next: Qwen3 Coder Next conduce la scorul mediu cu 4.7 vs 4.0. Granite 4.1 8B are costul de benchmark mai mic, $0.003 vs $0.008. Granite 4.1 8B este mai rapid cu 728ms vs 8.58s, cu rate de reușită de 9.5% vs 28.6%.
Model recomandat: Granite 4.1 8B - Scorul rămâne aproape de cel mai bun scor de aici (4.0 vs 4.7) și costă de aproximativ 3.0x mai puțin decât Qwen3 Coder Next.
Benchmark-urile au fost generate din suitele de teste AI BENCHY la: 2026-06-12
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
10.0Scorul de succes la prima încercare: 10.0 înseamnă fără erori reîncercabile ale API-ului țintă sau de limită de rată înainte de apeluri reușite; erorile urmărite reduc scorul.…
Consistență
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
8.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 13Nu a urmat instrucțiunile: 3Timp expirat: 1Timp de răspuns (mediu)8.58sTimp de răspuns (maxim)81.80sTimp de răspuns (total)128.68sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
Rată de trecere pe încercare
9.5%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
28.6%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
Teste instabile
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
3Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Rulări totale
63Rulări totale…
63Rulări totale…
Cost per rezultat
0.131Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
0.201Afișează costul mediu pe răspuns corect în benchmark, în cenți (mai mic este mai bun).…
Cost total
$0.003Cost total (preț curent)…
$0.008Cost total (preț curent)…
Preț de intrare
$0.050 / 1MPreț de intrare…
$0.110 / 1MPreț de intrare…
Preț de ieșire
$0.100 / 1MPreț de ieșire…
$0.800 / 1MPreț de ieșire…
Total tokenuri de intrare
46,285Total tokenuri de intrare…
47,250Total tokenuri de intrare…
Tokenuri de ieșire
2,911Tokenuri de ieșire…
3,319Tokenuri de ieșire…
Tokenuri de raționament
0Tokenuri de raționament…
0Tokenuri de raționament…
Timp de răspuns (mediu)
728msTimp de răspuns (mediu)…
8.58sTimp de răspuns (mediu)…
Timp de răspuns (maxim)
2.17sTimp de răspuns (maxim)…
81.80sTimp de răspuns (maxim)…
Timp de răspuns (total)
15.29sTimp de răspuns (total)…
128.68sTimp de răspuns (total)…
Generation showcase
Hamster playing table tennis
Prompt: Create a detailed SVG illustration of a hamster playing table tennis.
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
25.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)844msTimp de răspuns (maxim)1.91sTimp de răspuns (total)3.38sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
8.1Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
16.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)8.64sTimp de răspuns (maxim)15.28sTimp de răspuns (total)17.29sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Formatare suplimentară: 1Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)775msTimp de răspuns (maxim)1.07sTimp de răspuns (total)2.33sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
7.2Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
22.2%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp expirat: 1Timp de răspuns (mediu)924msTimp de răspuns (maxim)1.69sTimp de răspuns (total)2.77sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Apel de instrument invalid: 1Timp de răspuns (mediu)1.88sTimp de răspuns (maxim)1.88sTimp de răspuns (total)1.88sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)4.28sTimp de răspuns (maxim)4.28sTimp de răspuns (total)4.28sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)575msTimp de răspuns (maxim)583msTimp de răspuns (total)1.15sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)81.80sTimp de răspuns (maxim)81.80sTimp de răspuns (total)81.80sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 3Timp de răspuns (mediu)357msTimp de răspuns (maxim)463msTimp de răspuns (total)1.07sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
33.3%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Timp de răspuns (mediu)638msTimp de răspuns (maxim)638msTimp de răspuns (total)638msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)499msTimp de răspuns (maxim)499msTimp de răspuns (total)499msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
3.4Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
66.7%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
1Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.39sTimp de răspuns (maxim)1.39sTimp de răspuns (total)1.39sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
9.9Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Nu a urmat instrucțiunile: 1Răspuns greșit: 1Timp de răspuns (mediu)344msTimp de răspuns (maxim)358msTimp de răspuns (total)687msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
50.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)7.49sTimp de răspuns (maxim)13.67sTimp de răspuns (total)14.99sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)608msTimp de răspuns (maxim)960msTimp de răspuns (total)1.82sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 2Nu a urmat instrucțiunile: 1Timp de răspuns (mediu)1.25sTimp de răspuns (maxim)1.68sTimp de răspuns (total)2.49sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.17sTimp de răspuns (maxim)2.17sTimp de răspuns (total)2.17sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
100.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Niciun răspuns eșuat.Timp de răspuns (mediu)2.64sTimp de răspuns (maxim)2.64sTimp de răspuns (total)2.64sUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)306msTimp de răspuns (maxim)306msTimp de răspuns (total)306msUn test este considerat trecut complet doar dacă toate rulările lui trec.…
10.0Scorul de consistență reflectă stabilitatea între rulări (10 = foarte consistent, chiar dacă este constant greșit).…
0.0%Rata de trecere pe încercare = încercări trecute / total încercări pe toate rulările.…
0Testele instabile au avut rezultate mixte între rulări (cel puțin un succes și un eșec).…
Un test este considerat trecut complet doar dacă toate rulările lui trec.Răspuns greșit: 1Timp de răspuns (mediu)399msTimp de răspuns (maxim)399msTimp de răspuns (total)399msUn test este considerat trecut complet doar dacă toate rulările lui trec.…