AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Fouten

Verkeerd antwoord-fouten

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest.

Getoonde modellen

15

Totaal fouten

983

Meest getroffen model

Mercury 2 14
Rang Model Bedrijf Verkeerd antwoord-aantal Score Correcte tests Responstijd (gem.)
#133 Mercury 2 none Inception 14 4.7 4/19 610ms
#137 GPT-5.4 Nano none OpenAI 14 4.5 3/19 1.36s
#114 Kimi K2.5 none Moonshot AI 13 5.4 6/19 12.6s
#126 Mistral Small 4 none Mistral 13 5.1 5/19 651ms
#129 GPT-4o-mini none OpenAI 13 4.9 5/19 1.90s
#139 MiMo-V2-Flash none Xiaomi 13 4.5 3/19 2.73s
#141 Grok 4.1 Fast none X AI 13 4.4 3/19 1.67s
#123 Qwen3 Coder Next none Qwen 12 5.2 5/19 9.44s
#124 Nemotron 3 Super none NVIDIA 12 5.2 5/19 5.80s
#130 MiMo-V2.5 none Xiaomi 12 4.9 4/19 2.02s
#132 Trinity Large Preview none Arcee AI 12 4.8 4/19 3.03s
#134 Qwen3.5-9B none Qwen 12 4.7 4/19 1.51s
#140 Ling-2.6-1T none Inclusionai 12 4.5 4/19 8.79s
#144 Granite 4.1 8B none IBM Granite 12 4.1 2/19 743ms
#88 Seed-2.0-Lite none Bytedance Seed 11 6.0 8/19 2.50s

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)