Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-05-22
Metriek
Hy3 previewHy3 previewhighGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.Releasedatum: 2026-04-22
Grok 4.1 FastGrok 4.1 FastmediumGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.Releasedatum: 2025-11-19
Metriek
Hy3 previewHy3 previewhighGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.Releasedatum: 2026-04-22
Grok 4.1 FastGrok 4.1 FastmediumGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.Releasedatum: 2025-11-19
Score
8.0Gemiddelde score over alle benchmarktests.…
6.5Gemiddelde score over alle benchmarktests.…
Rang
#22
#87
Betrouwbaarheid
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
10.0Succescore bij de eerste poging: 10.0 betekent geen herhaalbare doel-API- of snelheidslimietfouten vóór succesvolle calls; geregistreerde fouten verlagen de score.…
Consistentie
9.5Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
7.3Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
Correcte tests
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 3API-fout: 1Responstijd (gem.)56.77sResponstijd (max)149.94sResponstijd (totaal)851.49sEen test is alleen volledig geslaagd als alle runs slagen.…
77.1%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
61.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
Instabiele tests
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
6Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Totaal runs
60Totaal runs…
57Totaal runs…
Kosten per resultaat
0.000Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
0.644Toont de gemiddelde kosten per correct benchmark-antwoord in centen (lager is beter).…
Totale kosten
$0.000Totale kosten…
$0.058Totale kosten…
Invoerprijs
$0.066 / 1MInvoerprijs…
$0.000 / 1MInvoerprijs…
Uitvoerprijs
$0.260 / 1MUitvoerprijs…
$0.000 / 1MUitvoerprijs…
Uitvoer-tokens
216,503Uitvoer-tokens…
2,025Uitvoer-tokens…
Redeneer-tokens
0Redeneer-tokens…
96,679Redeneer-tokens…
Responstijd (gem.)
56.77sResponstijd (gem.)…
24.01sResponstijd (gem.)…
Responstijd (max)
149.94sResponstijd (max)…
121.79sResponstijd (max)…
Responstijd (totaal)
851.49sResponstijd (totaal)…
288.18sResponstijd (totaal)…
Topmodellen op score
Score vs totale kosten
Responstijd (gem.)
Score vs Responstijd (gem.)
Totaal aantal uitvoer-tokens
Score vs Totaal aantal uitvoer-tokens
Categorie-uitsplitsing
Anti-AI-trucs
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.9Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)15.12sResponstijd (max)19.99sResponstijd (totaal)45.37sEen test is alleen volledig geslaagd als alle runs slagen.…
15.12sResponstijd (gem.)…
6,839Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
8.7Gemiddelde score over alle benchmarktests.…
7.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
91.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)3.81sResponstijd (max)5.65sResponstijd (totaal)7.62sEen test is alleen volledig geslaagd als alle runs slagen.…
3.81sResponstijd (gem.)…
108Uitvoer-tokens…
4,741Redeneer-tokens…
Programmeren
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)99.76sResponstijd (max)99.76sResponstijd (totaal)99.76sEen test is alleen volledig geslaagd als alle runs slagen.…
99.76sResponstijd (gem.)…
38,167Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
2.3Gemiddelde score over alle benchmarktests.…
1.1Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)23.58sResponstijd (max)23.58sResponstijd (totaal)23.58sEen test is alleen volledig geslaagd als alle runs slagen.…
23.58sResponstijd (gem.)…
821Uitvoer-tokens…
6,703Redeneer-tokens…
Gecombineerd
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)113.09sResponstijd (max)113.09sResponstijd (totaal)113.09sEen test is alleen volledig geslaagd als alle runs slagen.…
113.09sResponstijd (gem.)…
31,319Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)37.64sResponstijd (max)37.64sResponstijd (totaal)37.64sEen test is alleen volledig geslaagd als alle runs slagen.…
37.64sResponstijd (gem.)…
261Uitvoer-tokens…
12,272Redeneer-tokens…
Gegevensparsering en extractie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
6.5Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.API-fout: 1Responstijd (gem.)12.11sResponstijd (max)12.11sResponstijd (totaal)12.11sEen test is alleen volledig geslaagd als alle runs slagen.…
12.11sResponstijd (gem.)…
4,323Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)6.63sResponstijd (max)6.63sResponstijd (totaal)6.63sEen test is alleen volledig geslaagd als alle runs slagen.…
6.63sResponstijd (gem.)…
180Uitvoer-tokens…
5,409Redeneer-tokens…
Domeinspecifiek
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.3Gemiddelde score over alle benchmarktests.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 2Responstijd (gem.)109.04sResponstijd (max)149.94sResponstijd (totaal)327.11sEen test is alleen volledig geslaagd als alle runs slagen.…
109.04sResponstijd (gem.)…
87,559Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.8Gemiddelde score over alle benchmarktests.…
4.4Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
66.7%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
2Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Time-out: 1Verkeerd antwoord: 1Responstijd (gem.)121.79sResponstijd (max)121.79sResponstijd (totaal)121.79sEen test is alleen volledig geslaagd als alle runs slagen.…
121.79sResponstijd (gem.)…
11Uitvoer-tokens…
37,657Redeneer-tokens…
Algemene intelligentie
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
0.0Gemiddelde score over alle benchmarktests.…
0.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)0msResponstijd (max)0msResponstijd (totaal)0msEen test is alleen volledig geslaagd als alle runs slagen.…
0msResponstijd (gem.)…
0Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
4.2Gemiddelde score over alle benchmarktests.…
9.9Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)16.25sResponstijd (max)16.25sResponstijd (totaal)16.25sEen test is alleen volledig geslaagd als alle runs slagen.…
16.25sResponstijd (gem.)…
127Uitvoer-tokens…
3,456Redeneer-tokens…
Instructies opvolgen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
9.9Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)34.02sResponstijd (max)41.83sResponstijd (totaal)68.04sEen test is alleen volledig geslaagd als alle runs slagen.…
34.02sResponstijd (gem.)…
13,331Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
6.5Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
50.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Responstijd (gem.)5.30sResponstijd (max)5.30sResponstijd (totaal)5.30sEen test is alleen volledig geslaagd als alle runs slagen.…
5.30sResponstijd (gem.)…
55Uitvoer-tokens…
3,489Redeneer-tokens…
Puzzeloplossing
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)29.74sResponstijd (max)45.06sResponstijd (totaal)59.48sEen test is alleen volledig geslaagd als alle runs slagen.…
29.74sResponstijd (gem.)…
15,503Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
5.3Gemiddelde score over alle benchmarktests.…
7.2Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
44.4%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Instructies niet gevolgd: 1Verkeerd antwoord: 1Responstijd (gem.)8.08sResponstijd (max)8.38sResponstijd (totaal)16.17sEen test is alleen volledig geslaagd als alle runs slagen.…
8.08sResponstijd (gem.)…
187Uitvoer-tokens…
6,086Redeneer-tokens…
Toolaanroepen
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
10.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
100.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen mislukte antwoorden.Responstijd (gem.)78.83sResponstijd (max)78.83sResponstijd (totaal)78.83sEen test is alleen volledig geslaagd als alle runs slagen.…
78.83sResponstijd (gem.)…
10,370Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
2.8Gemiddelde score over alle benchmarktests.…
1.6Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
33.3%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
1Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Geen antwoord: 1Responstijd (gem.)27.71sResponstijd (max)27.71sResponstijd (totaal)27.71sEen test is alleen volledig geslaagd als alle runs slagen.…
27.71sResponstijd (gem.)…
260Uitvoer-tokens…
11,485Redeneer-tokens…
Algemene kennis
Score
Consistentie
Slaagpercentage per poging
Instabiele tests
Correcte tests
Responstijd (gem.)
Uitvoer-tokens
Redeneer-tokens
Hy3 previewGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)47.71sResponstijd (max)47.71sResponstijd (totaal)47.71sEen test is alleen volledig geslaagd als alle runs slagen.…
47.71sResponstijd (gem.)…
9,092Uitvoer-tokens…
0Redeneer-tokens…
Grok 4.1 FastGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests.
3.0Gemiddelde score over alle benchmarktests.…
10.0Consistentie geeft stabiliteit tussen runs weer (10 = zeer consistent, zelfs als consequent fout).…
0.0%Slaagpercentage per poging = geslaagde pogingen / totale pogingen over alle runs.…
0Instabiele tests hadden gemengde uitkomsten over runs (minstens één geslaagd en één gefaald).…
Een test is alleen volledig geslaagd als alle runs slagen.Verkeerd antwoord: 1Responstijd (gem.)25.52sResponstijd (max)25.52sResponstijd (totaal)25.52sEen test is alleen volledig geslaagd als alle runs slagen.…