AI BENCHY
AI Benchmark Leaderboard
Benchmarks gegenereerd uit AI BENCHY-testsuites op: 2026-04-24
Geëvalueerde modellen: 115
115/115
Modellen filteren
Geen modellen komen overeen met de huidige zoekopdracht en filters.
| Rang | Model | Score Gemiddelde score over alle benchmarktests. | Bedrijf | Totale kosten | Responstijd (gem.) Responstijd (gem.) | Correcte tests Toont hoeveel tests volledig zijn geslaagd (alle runs geslaagd). |
|---|---|---|---|---|---|---|
| #91#91 | DeepSeek V4 Flashnone | 5.3… | DeepSeek | $0.008… | 29.39s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 8 Extra opmaak: 2 Instructies niet gevolgd: 2 Ongeldige toolaanroep: 1 Responstijd (gem.)29.39s Responstijd (max)111.96s Responstijd (totaal)529.10s … |
|
Totaal tests: 18
Foute tests: 13
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 33.3%
Instabiele tests: 2…
Uitvoer-tokens: 4,444
Redeneer-tokens: 0
Responstijd: gem. 29.39s · totaal 529.10s · max 111.96s
|
||||||
| #92#92 | Grok 4.20 BetanoneGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests. | 5.3… | X AI | $0.091… | 1.19s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 10 Instructies niet gevolgd: 3 Ongeldige toolaanroep: 1 Responstijd (gem.)1.19s Responstijd (max)6.48s Responstijd (totaal)21.37s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 29.6%
Instabiele tests: 2…
Uitvoer-tokens: 1,591
Redeneer-tokens: 0
Responstijd: gem. 1.19s · totaal 21.37s · max 6.48s
|
||||||
| #93#93 | MiniMax M2.7medium | 5.3… | Minimax | $0.091… | 31.08s… | Een test is alleen volledig geslaagd als alle runs slagen. Instructies niet gevolgd: 6 Verkeerd antwoord: 5 Time-out: 2 Ongeldige toolaanroep: 1 Responstijd (gem.)31.08s Responstijd (max)117.04s Responstijd (totaal)528.37s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 51.9%
Instabiele tests: 10…
Uitvoer-tokens: 4,984
Redeneer-tokens: 62,787
Responstijd: gem. 31.08s · totaal 528.37s · max 117.04s
|
||||||
| #94#94 | Elephant Alphamedium | 5.2… | Openrouter | $0.000… | 1.27s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 9 Instructies niet gevolgd: 3 Ongeldige toolaanroep: 1 Responstijd (gem.)1.27s Responstijd (max)3.70s Responstijd (totaal)22.82s … |
|
Totaal tests: 18
Foute tests: 13
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 29.6%
Instabiele tests: 1…
Uitvoer-tokens: 2,596
Redeneer-tokens: 0
Responstijd: gem. 1.27s · totaal 22.82s · max 3.70s
|
||||||
| #95#95 | Grok 4.20none | 5.2… | X AI | $0.095… | 1.11s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 9 Instructies niet gevolgd: 2 Extra opmaak: 1 Ongeldige toolaanroep: 1 Responstijd (gem.)1.11s Responstijd (max)6.04s Responstijd (totaal)20.02s … |
|
Totaal tests: 18
Foute tests: 13
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 29.6%
Instabiele tests: 1…
Uitvoer-tokens: 1,967
Redeneer-tokens: 0
Responstijd: gem. 1.11s · totaal 20.02s · max 6.04s
|
||||||
| #96#96 | Mistral Small 4none | 5.2… | Mistral | $0.006… | 665ms… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 11 Instructies niet gevolgd: 2 Responstijd (gem.)665ms Responstijd (max)1.72s Responstijd (totaal)11.97s … |
|
Totaal tests: 18
Foute tests: 13
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 31.5%
Instabiele tests: 1…
Uitvoer-tokens: 2,207
Redeneer-tokens: 0
Responstijd: gem. 665ms · totaal 11.97s · max 1.72s
|
||||||
| #97#97 | gpt-oss-120bnone | 5.2… | OpenAI | $0.009… | 11.96s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 6 Instructies niet gevolgd: 5 API-fout: 3 Responstijd (gem.)11.96s Responstijd (max)68.97s Responstijd (totaal)179.34s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 38.9%
Instabiele tests: 5…
Uitvoer-tokens: 44,652
Redeneer-tokens: 0
Responstijd: gem. 11.96s · totaal 179.34s · max 68.97s
|
||||||
| #98#98 | Elephant Alphanone | 5.2… | Openrouter | $0.000… | 1.23s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 9 Instructies niet gevolgd: 3 Ongeldige toolaanroep: 1 Responstijd (gem.)1.23s Responstijd (max)3.81s Responstijd (totaal)22.16s … |
|
Totaal tests: 18
Foute tests: 13
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 31.5%
Instabiele tests: 1…
Uitvoer-tokens: 2,573
Redeneer-tokens: 0
Responstijd: gem. 1.23s · totaal 22.16s · max 3.81s
|
||||||
| #99#99 | GPT-5.4 Mininone | 5.1… | OpenAI | $0.032… | 1.17s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 10 Instructies niet gevolgd: 3 Responstijd (gem.)1.17s Responstijd (max)2.52s Responstijd (totaal)21.01s … |
|
Totaal tests: 18
Foute tests: 13
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 35.2%
Instabiele tests: 3…
Uitvoer-tokens: 2,418
Redeneer-tokens: 0
Responstijd: gem. 1.17s · totaal 21.01s · max 2.52s
|
||||||
| #100#100 | Qwen3 Coder Nextnone | 5.1… | Qwen | $0.008… | 10.18s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 12 Extra opmaak: 1 Instructies niet gevolgd: 1 Responstijd (gem.)10.18s Responstijd (max)45.14s Responstijd (totaal)122.13s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 25.9%
Instabiele tests: 1…
Uitvoer-tokens: 3,617
Redeneer-tokens: 0
Responstijd: gem. 10.18s · totaal 122.13s · max 45.14s
|
||||||
| #101#101 | MiMo-V2.5none | 5.1… | Xiaomi | $0.019… | 1.05s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 10 Instructies niet gevolgd: 2 Extra opmaak: 1 Responstijd (gem.)1.05s Responstijd (max)2.43s Responstijd (totaal)18.94s … |
|
Totaal tests: 18
Foute tests: 13
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 27.8%
Instabiele tests: 0…
Uitvoer-tokens: 2,177
Redeneer-tokens: 0
Responstijd: gem. 1.05s · totaal 18.94s · max 2.43s
|
||||||
| #102#102 | Nemotron 3 Supernone | 5.1… | NVIDIA | $0.000… | 8.54s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 10 Instructies niet gevolgd: 4 Responstijd (gem.)8.54s Responstijd (max)24.97s Responstijd (totaal)153.69s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 35.2%
Instabiele tests: 4…
Uitvoer-tokens: 4,760
Redeneer-tokens: 0
Responstijd: gem. 8.54s · totaal 153.69s · max 24.97s
|
||||||
| #103#103 | GPT-4o-mininone | 4.9… | OpenAI | $0.005… | 2.00s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 13 Instructies niet gevolgd: 1 Responstijd (gem.)2.00s Responstijd (max)7.58s Responstijd (totaal)21.99s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 22.2%
Instabiele tests: 0…
Uitvoer-tokens: 1,947
Redeneer-tokens: 0
Responstijd: gem. 2.00s · totaal 21.99s · max 7.58s
|
||||||
| #104#104 | Qwen3.5-9Bnone | 4.8… | Qwen | $0.005… | 1.47s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 10 Instructies niet gevolgd: 3 Ongeldige toolaanroep: 1 Responstijd (gem.)1.47s Responstijd (max)5.91s Responstijd (totaal)26.43s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 24.1%
Instabiele tests: 1…
Uitvoer-tokens: 3,951
Redeneer-tokens: 0
Responstijd: gem. 1.47s · totaal 26.43s · max 5.91s
|
||||||
| #105#105 | Mercury 2none | 4.8… | Inception | $0.007… | 613ms… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 13 Instructies niet gevolgd: 1 Responstijd (gem.)613ms Responstijd (max)1.27s Responstijd (totaal)11.04s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 27.8%
Instabiele tests: 2…
Uitvoer-tokens: 1,625
Redeneer-tokens: 0
Responstijd: gem. 613ms · totaal 11.04s · max 1.27s
|
||||||
| #106#106 | Qwen3 Coder Nextmedium | 4.7… | Qwen | $0.008… | 10.75s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 9 Instructies niet gevolgd: 5 Time-out: 1 Responstijd (gem.)10.75s Responstijd (max)81.80s Responstijd (totaal)129.01s … |
|
Totaal tests: 18
Foute tests: 15
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 27.8%
Instabiele tests: 3…
Uitvoer-tokens: 3,241
Redeneer-tokens: 0
Responstijd: gem. 10.75s · totaal 129.01s · max 81.80s
|
||||||
| #107#107 | HY3 Previewnone | 4.7… | Tencent | $0.000… | 13.56s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 7 Instructies niet gevolgd: 4 API-fout: 2 Extra opmaak: 1 Responstijd (gem.)13.56s Responstijd (max)35.84s Responstijd (totaal)230.55s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 27.8%
Instabiele tests: 2…
Uitvoer-tokens: 2,639
Redeneer-tokens: 0
Responstijd: gem. 13.56s · totaal 230.55s · max 35.84s
|
||||||
| #108#108 | GLM 4.7 Flashmedium | 4.6… | Z.ai | $0.046… | 32.33s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 8 Instructies niet gevolgd: 2 Geen antwoord: 2 Ongeldige toolaanroep: 1 Time-out: 1 Responstijd (gem.)32.33s Responstijd (max)174.55s Responstijd (totaal)355.65s … |
|
Totaal tests: 18
Foute tests: 14
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 38.9%
Instabiele tests: 8…
Uitvoer-tokens: 39,688
Redeneer-tokens: 72,401
Responstijd: gem. 32.33s · totaal 355.65s · max 174.55s
Verkeerd antwoord: 8 Instructies niet gevolgd: 2 Geen antwoord: 2 Ongeldige toolaanroep: 1 Time-out: 1
|
||||||
| #109#109 | MiMo-V2-Flashnone | 4.5… | Xiaomi | $0.023… | 2.79s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 12 API-fout: 1 Extra opmaak: 1 Instructies niet gevolgd: 1 Responstijd (gem.)2.79s Responstijd (max)19.68s Responstijd (totaal)39.08s … |
|
Totaal tests: 18
Foute tests: 15
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 27.8%
Instabiele tests: 5…
Uitvoer-tokens: 68,522
Redeneer-tokens: 0
Responstijd: gem. 2.79s · totaal 39.08s · max 19.68s
|
||||||
| #110#110 | Grok 4.1 Fastnone | 4.5… | X AI | $0.009… | 1.76s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 13 Instructies niet gevolgd: 2 Responstijd (gem.)1.76s Responstijd (max)5.51s Responstijd (totaal)19.35s … |
|
Totaal tests: 18
Foute tests: 15
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 24.1%
Instabiele tests: 3…
Uitvoer-tokens: 1,721
Redeneer-tokens: 0
Responstijd: gem. 1.76s · totaal 19.35s · max 5.51s
|
||||||
| #111#111 | Ling 2.6 1tnone | 4.5… | Inclusionai | $0.000… | 8.79s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 11 Instructies niet gevolgd: 3 Ongeldige toolaanroep: 1 Responstijd (gem.)8.79s Responstijd (max)25.72s Responstijd (totaal)158.19s … |
|
Totaal tests: 18
Foute tests: 15
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 16.7%
Instabiele tests: 0…
Uitvoer-tokens: 2,434
Redeneer-tokens: 0
Responstijd: gem. 8.79s · totaal 158.19s · max 25.72s
|
||||||
| #112#112 | GPT-5.4 Nanonone | 4.5… | OpenAI | $0.009… | 1.40s… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 13 Instructies niet gevolgd: 3 Responstijd (gem.)1.40s Responstijd (max)3.84s Responstijd (totaal)25.14s … |
|
Totaal tests: 18
Foute tests: 16
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 31.5%
Instabiele tests: 7…
Uitvoer-tokens: 2,762
Redeneer-tokens: 0
Responstijd: gem. 1.40s · totaal 25.14s · max 3.84s
|
||||||
| #113#113 | Qwen3.5-9Bmedium | 4.4… | Qwen | $0.030… | 73.64s… | Een test is alleen volledig geslaagd als alle runs slagen. Time-out: 11 Instructies niet gevolgd: 2 Extra opmaak: 1 Verkeerd antwoord: 1 Responstijd (gem.)73.64s Responstijd (max)226.38s Responstijd (totaal)1104.60s … |
|
Totaal tests: 18
Foute tests: 15
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 33.3%
Instabiele tests: 6…
Uitvoer-tokens: 24,291
Redeneer-tokens: 172,597
Responstijd: gem. 73.64s · totaal 1104.60s · max 226.38s
|
||||||
| #114#114 | LFM2-24B-A2BnoneGearchiveerd model: dit model wordt niet langer bijgewerkt of getest op nieuwe tests. | 4.1… | Liquid | $0.001… | 811ms… | Een test is alleen volledig geslaagd als alle runs slagen. Verkeerd antwoord: 9 API-fout: 4 Instructies niet gevolgd: 2 Responstijd (gem.)811ms Responstijd (max)2.88s Responstijd (totaal)11.35s … |
|
Totaal tests: 16
Foute tests: 15
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 14.6%
Instabiele tests: 2…
Uitvoer-tokens: 1,185
Redeneer-tokens: 0
Responstijd: gem. 811ms · totaal 11.35s · max 2.88s
|
||||||
| #115#115 | Step 3.5 Flashnone | 3.0… | Stepfun | $0.000… | 0ms… | Een test is alleen volledig geslaagd als alle runs slagen. API-fout: 1 Responstijd (gem.)0ms Responstijd (max)0ms Responstijd (totaal)0ms … |
|
Totaal tests: 1
Foute tests: 1
Betrouwbaarheid: n.v.t.Betrouwbaarheidstelemetrie is niet beschikbaar of onvolledig voor dit model.
Slaagpercentage per poging: 0.0%
Instabiele tests: 0…
Uitvoer-tokens: 0
Redeneer-tokens: 0
Responstijd: gem. 0ms · totaal 0ms · max 0ms
|
||||||
Snelle vergelijking
Gemini 3 Flash PreviewmediumvsGemini 3.1 Pro PreviewmediumGemini 3 Flash PreviewmediumvsClaude Opus 4.7mediumGemini 3 Flash PreviewmediumvsClaude Opus 4.7noneGemini 3 Flash PreviewmediumvsGPT-5.5mediumGemini 3 Flash PreviewmediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewmediumvsSeed-2.0-LitemediumGemini 3 Flash PreviewmediumvsHY3 PreviewhighGratis beschikbaarGemini 3.1 Pro PreviewmediumvsClaude Opus 4.7mediumClaude Opus 4.7mediumvsClaude Opus 4.7noneClaude Opus 4.7nonevsGPT-5.5mediumGPT-5.5mediumvsGemini 3 Flash PreviewlowGemini 3 Flash PreviewlowvsSeed-2.0-Litemedium