AI BENCHY Fouten
Verkeerd antwoord-fouten
Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.
Categorieรซn
In categorie Domeinspecifiek298 In categorie Anti-AI-trucs235 In categorie Puzzeloplossing148 In categorie Algemene kennis127 In categorie Programmeren120 In categorie Instructies opvolgen52 In categorie Gecombineerd51 In categorie Gegevensparsering en extractie32 In categorie Algemene intelligentie27 In categorie Toolaanroepen2
| Rang | Model | Bedrijf | Verkeerd antwoord-aantal | Score | Correcte tests | Responstijd (gem.) |
|---|---|---|---|---|---|---|
| #1 | Gemini 3 Flash Preview medium | 1 | 9.8 | 19/20 | 16.7s | |
| #2 | Gemini 3.5 Flash high | 1 | 9.6 | 19/20 | 8.30s | |
| #32 | Step 3.5 Flash none | Stepfun | 1 | 7.8 | 9/12 | 39.0s |