AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Fouten

Verkeerd antwoord-fouten

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Correcte tests โ†‘.

Getoonde modellen

15

Totaal fouten

1204

Meest getroffen model

Granite 4.1 8B 13
Rang Model Bedrijf Verkeerd antwoord-aantal Score Correcte tests Responstijd (gem.)
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#131 Qwen3.5-122B-A10B none Qwen 13 5.3 6/21 3.41s
#133 DeepSeek V3.2 none DeepSeek 7 5.2 6/21 13.8s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#135 Kimi K2.5 none Moonshot AI 15 5.2 6/21 13.2s
#136 Elephant Alpha medium Openrouter 9 5.1 6/21 1.27s
#138 Ling-2.6-flash none Inclusionai 9 5.0 6/21 9.34s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#126 gpt-oss-120b none OpenAI 8 5.4 6/19 21.6s
#106 Grok 4.20 Beta none X AI 10 5.8 6/18 1.19s
#112 GLM 5.1 none Z.ai 13 5.7 7/21 4.10s
#113 DeepSeek V4 Pro none DeepSeek 10 5.7 7/21 12.4s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 12 5.7 7/21 4.39s
#115 Qwen3.5-27B none Qwen 12 5.7 7/21 1.68s
#116 Hunter Alpha none OpenRouter 9 5.7 6/18 4.70s

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)