AI BENCHY
Advertise here

AI BENCHY Fouten

Verkeerd antwoord-fouten

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) โ†‘.

Getoonde modellen

15

Totaal fouten

1204

Meest getroffen model

Mistral Small 4 15
Rang Model Bedrijf Verkeerd antwoord-aantal Score Correcte tests Responstijd (gem.)
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 8 7.6 13/21 46.4s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#96 Ring-2.6-1T none Inclusionai 5 6.2 9/21 55.1s
#27 Gemma 4 31B medium Google 2 7.8 14/21 56.5s
#82 Hy3 preview high Tencent 3 6.6 11/21 56.6s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s
#78 Qwen3.6 27B medium Qwen 6 6.8 10/21 59.7s
#75 Ring-2.6-1T medium Inclusionai 6 6.9 11/21 61.3s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#37 Gemma 4 26B A4B medium Google 3 7.6 14/21 63.4s
#71 Step 3.7 Flash high Stepfun 6 7.0 11/21 64.5s

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)