AI BENCHY
Your ad here

AI BENCHY Fouten

Verkeerd antwoord-fouten

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Correcte tests โ†“.

Getoonde modellen

15

Totaal fouten

572

Meest getroffen model

Gemini 3.1 Pro Preview 1
Rang Model Bedrijf Verkeerd antwoord-aantal Score Correcte tests Responstijd (gem.)
#46 Kimi K2.5 medium Moonshot AI 4 7.0 9/18 72.4s
#47 Grok 4.20 medium X AI 3 7.0 9/18 10.3s
#49 Qwen3.5 Plus 2026-02-15 none Qwen 9 6.8 9/18 2.60s
#51 Nemotron 3 Super medium NVIDIA 3 6.7 9/18 19.1s
#52 Grok 4.1 Fast medium X AI 3 6.7 9/18 23.9s
#53 GLM 5 none Z.ai 9 6.6 9/18 4.23s
#50 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#54 Mercury 2 medium Inception 6 6.5 8/18 2.21s
#55 MiMo-V2-Omni none Xiaomi 8 6.5 8/18 1.99s
#58 GLM 5V Turbo none Z.ai 8 6.2 8/18 3.10s
#59 Qwen3.5-Flash none Qwen 9 6.2 8/18 3.25s
#61 Seed-2.0-Lite none Bytedance Seed 10 6.2 8/18 2.53s
#56 Grok 4.20 Multi Agent Beta medium X AI 3 6.4 7/18 9.80s
#57 GPT-5 Nano medium OpenAI 7 6.3 7/18 44.1s
#60 Gemma 4 26B A4B none Google 7 6.2 7/18 6.59s

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)