Ranglijst voor Algemene kennis x Verkeerd antwoord

AI BENCHY Categoriefouten

Zie welke AI-modellen op Algemene kennis het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

133

Meest getroffen model

Qwen3.7 Max 1

Foutredenen

Verkeerd antwoord133 API-fout13 Geen antwoord8

Categorieën

Domeinspecifiek325 Anti-AI-trucs250 Programmeren201 Puzzeloplossing154 Algemene kennis133 Instructies opvolgen54 Gecombineerd53 Algemene intelligentie36 Gegevensparsering en extractie35 Toolaanroepen2

133/133

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#110	Owl Alpha none	Openrouter	1	3.0	$0.000	0/1	2.50s
Totaal tests 1 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 2.50s
#111	Kimi K2.6 none	Moonshot AI	1	3.0	$0.079	0/1	1.36s
Totaal tests 1 Foute tests 1 Totale kosten $0.079 Responstijd (gem.) 1.36s
#112	GPT-5.4 none	OpenAI	1	3.0	$0.122	0/1	990ms
Totaal tests 1 Foute tests 1 Totale kosten $0.122 Responstijd (gem.) 990ms
#114	Mimo V2 Omni none	Xiaomi	1	3.0	$0.021	0/1	1.30s
Totaal tests 1 Foute tests 1 Totale kosten $0.021 Responstijd (gem.) 1.30s
#115	Grok 4.1 Fast medium	X AI	1	3.0	$0.069	0/1	25.5s
Totaal tests 1 Foute tests 1 Totale kosten $0.069 Responstijd (gem.) 25.5s
#116	GLM 5.1 none	Z.ai	1	3.0	$0.058	0/1	2.34s
Totaal tests 1 Foute tests 1 Totale kosten $0.058 Responstijd (gem.) 2.34s
#117	DeepSeek V4 Flash none	DeepSeek	1	3.0	$0.007	0/1	3.07s
Totaal tests 1 Foute tests 1 Totale kosten $0.007 Responstijd (gem.) 3.07s
#118	Kimi K2.5 none	Moonshot AI	1	3.0	$0.027	0/1	3.90s
Totaal tests 1 Foute tests 1 Totale kosten $0.027 Responstijd (gem.) 3.90s
#119	MiMo-V2.5-Pro none	Xiaomi	1	3.0	$0.017	0/1	1.89s
Totaal tests 1 Foute tests 1 Totale kosten $0.017 Responstijd (gem.) 1.89s
#120	Qwen3.6 27B none	Qwen	1	3.0	$0.028	0/1	4.03s
Totaal tests 1 Foute tests 1 Totale kosten $0.028 Responstijd (gem.) 4.03s
#121	Gemma 4 26B A4B none	Google	1	3.0	$0.004	0/1	778ms
Totaal tests 1 Foute tests 1 Totale kosten $0.004 Responstijd (gem.) 778ms
#122	Qwen3.5 Plus 2026-04-20 none	Qwen	1	3.0	$0.032	0/1	33.3s
Totaal tests 1 Foute tests 1 Totale kosten $0.032 Responstijd (gem.) 33.3s
#123	GLM 5 Turbo none	Z.ai	1	3.0	$0.047	0/1	2.37s
Totaal tests 1 Foute tests 1 Totale kosten $0.047 Responstijd (gem.) 2.37s
#124	GPT-5.4 Mini none	OpenAI	1	3.0	$0.038	0/1	1.33s
Totaal tests 1 Foute tests 1 Totale kosten $0.038 Responstijd (gem.) 1.33s
#125	Qwen3.5-122B-A10B none	Qwen	1	3.0	$0.020	0/1	295ms
Totaal tests 1 Foute tests 1 Totale kosten $0.020 Responstijd (gem.) 295ms

←

1 6 7 8 9

→

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Algemene kennis: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten