AI BENCHY
Advertise here

AI BENCHY Fouten

Verkeerd antwoord-fouten

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score โ†‘.

Getoonde modellen

15

Totaal fouten

1204

Meest getroffen model

Granite 4.1 8B 13
Rang Model Bedrijf Verkeerd antwoord-aantal Score Correcte tests Responstijd (gem.)
#27 Gemma 4 31B medium Google 2 7.8 14/21 56.5s
#28 Gemini 2.5 Flash medium Google 6 7.8 14/21 15.5s
#26 Qwen3.6 Plus medium Qwen 5 7.9 14/21 30.7s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#23 GLM 5 Turbo medium Z.ai 4 8.0 14/21 23.0s
#22 Step 3.7 Flash medium Stepfun 5 8.0 14/21 20.4s
#21 GPT-5.4 medium OpenAI 5 8.0 14/21 22.3s
#20 Gemini 3.5 Flash none Google 3 8.1 15/21 9.93s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#18 Qwen3.7 Plus medium Qwen 5 8.2 15/21 38.9s
#17 GLM 5 medium Z.ai 3 8.3 15/21 33.5s
#16 Gemini 3 Flash Preview low Google 5 8.4 16/21 5.76s
#15 GPT-5.3-Codex medium OpenAI 4 8.4 15/21 16.2s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)