AI BENCHY
AD
Track all your projects in one dashboard. Get ๐Ÿ“Šstats, ๐Ÿ”ฅheatmaps and ๐Ÿ‘€recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Categoriefouten

Domeinspecifiek: Verkeerd antwoord

Domeinspecifiek
Verkeerd antwoord

Zie welke AI-modellen op Domeinspecifiek het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

15

Totaal fouten

182

Meest getroffen model

Qwen3.6 Plus Preview 3
Rang Model Bedrijf Verkeerd antwoord-aantal Categoriescore Correcte tests Responstijd (gem.)
#81 Elephant medium Openrouter 3 3.0 0/3 925ms
#84 gpt-oss-120b none OpenAI 3 3.0 0/3 35.0s
#85 Elephant none Openrouter 3 3.0 0/3 927ms
#86 GPT-5.4 Mini none OpenAI 3 3.5 0/3 937ms
#88 Nemotron 3 Super none NVIDIA 3 3.6 0/3 6.23s
#89 GPT-4o-mini none OpenAI 3 3.0 0/3 637ms
#90 Qwen3.5-9B none Qwen 3 3.0 0/3 464ms
#96 GPT-5.4 Nano none OpenAI 3 2.9 0/3 926ms
#5 Gemini 3 Flash Preview low Google 2 5.3 1/3 8.05s
#6 Seed-2.0-Lite medium Bytedance Seed 2 5.9 1/3 88.7s
#7 GPT-5.3-Codex medium OpenAI 2 5.9 1/3 64.3s
#11 Gemini 3.1 Flash Lite Preview high Google 2 5.3 1/3 127.6s
#12 Gemini 3 PRO Preview medium Google 2 5.3 1/3 7.01s
#13 GLM 5 medium Z.ai 2 3.5 0/3 0ms
#15 Gemini 2.5 Flash medium Google 2 5.9 1/3 37.3s

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten