AI BENCHY
Advertise here

AI BENCHY Fouten

Verkeerd antwoord-fouten

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Score โ†‘.

Getoonde modellen

15

Totaal fouten

1204

Meest getroffen model

Granite 4.1 8B 13
Rang Model Bedrijf Verkeerd antwoord-aantal Score Correcte tests Responstijd (gem.)
#73 Seed-2.0-Mini medium Bytedance Seed 4 6.9 11/21 80.2s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#70 GPT-5.4 Nano medium OpenAI 8 7.0 11/21 12.0s
#71 Step 3.7 Flash high Stepfun 6 7.0 11/21 64.5s
#68 Claude Opus 4.8 none Anthropic 4 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 3 7.0 12/21 25.9s
#67 MiniMax M3 medium Minimax 3 7.1 11/21 68.2s
#66 Qwen3.5-35B-A3B medium Qwen 2 7.1 11/21 72.6s
#65 Grok 4.20 medium X AI 6 7.1 12/21 27.7s
#64 MiMo-V2-Flash medium Xiaomi 5 7.2 12/21 20.1s
#63 GPT-5.3 Chat none OpenAI 7 7.2 12/21 6.34s
#62 Step 3.5 Flash medium Stepfun 4 7.2 11/20 72.5s
#61 Gemini 3.1 Flash Lite low Google 9 7.2 12/21 1.89s
#60 Kimi K2.6 medium Moonshot AI 3 7.2 12/21 71.7s
#59 GLM 5V Turbo medium Z.ai 7 7.2 11/21 23.1s

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)