AI BENCHY
Advertise here

AI BENCHY Fouten

Verkeerd antwoord-fouten

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten โ†‘.

Getoonde modellen

15

Totaal fouten

1204

Meest getroffen model

Gemini 3 Flash Preview 1
Rang Model Bedrijf Verkeerd antwoord-aantal Score Correcte tests Responstijd (gem.)
#56 MiMo-V2.5 medium Xiaomi 5 7.3 12/21 27.1s
#64 MiMo-V2-Flash medium Xiaomi 5 7.2 12/21 20.1s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#76 Kimi K2.5 medium Moonshot AI 5 6.8 10/21 98.4s
#77 Claude Sonnet 4.6 none Anthropic 5 6.8 11/21 5.04s
#80 Mimo V2 Omni medium Xiaomi 5 6.7 10/21 41.2s
#96 Ring-2.6-1T none Inclusionai 5 6.2 9/21 55.1s
#105 Nemotron 3 Super medium NVIDIA 5 5.8 8/21 32.0s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#28 Gemini 2.5 Flash medium Google 6 7.8 14/21 15.5s
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#45 GPT-5.4 Mini medium OpenAI 6 7.5 12/21 22.3s
#65 Grok 4.20 medium X AI 6 7.1 12/21 27.7s
#71 Step 3.7 Flash high Stepfun 6 7.0 11/21 64.5s
#75 Ring-2.6-1T medium Inclusionai 6 6.9 11/21 61.3s

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)