Ranglijst voor Algemene kennis x Verkeerd antwoord

AI BENCHY Categoriefouten

Zie welke AI-modellen op Algemene kennis het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

133

Meest getroffen model

Qwen3.7 Max 1

Foutredenen

Verkeerd antwoord133 API-fout13 Geen antwoord8

Categorieën

Domeinspecifiek325 Anti-AI-trucs250 Programmeren201 Puzzeloplossing154 Algemene kennis133 Instructies opvolgen54 Gecombineerd53 Algemene intelligentie36 Gegevensparsering en extractie35 Toolaanroepen2

133/133

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#93	Gemini 2.5 Flash none	Google	1	3.0	$0.016	0/1	1.15s
Totaal tests 1 Foute tests 1 Totale kosten $0.016 Responstijd (gem.) 1.15s
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
Totaal tests 1 Foute tests 1 Totale kosten $0.013 Responstijd (gem.) 724ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
Totaal tests 1 Foute tests 1 Totale kosten $0.013 Responstijd (gem.) 733ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Totaal tests 1 Foute tests 1 Totale kosten $0.005 Responstijd (gem.) 588ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
Totaal tests 1 Foute tests 1 Totale kosten $0.004 Responstijd (gem.) 1.25s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	3.0	$0.027	0/1	1.83s
Totaal tests 1 Foute tests 1 Totale kosten $0.027 Responstijd (gem.) 1.83s
#100	Qwen3.6 Max Preview none	Qwen	1	3.0	$0.075	0/1	1.97s
Totaal tests 1 Foute tests 1 Totale kosten $0.075 Responstijd (gem.) 1.97s
#101	GLM 5 none	Z.ai	1	3.0	$0.027	0/1	3.62s
Totaal tests 1 Foute tests 1 Totale kosten $0.027 Responstijd (gem.) 3.62s
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
Totaal tests 1 Foute tests 1 Totale kosten $0.015 Responstijd (gem.) 649ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
Totaal tests 1 Foute tests 1 Totale kosten $0.012 Responstijd (gem.) 493ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
Totaal tests 1 Foute tests 1 Totale kosten $0.015 Responstijd (gem.) 599ms
#105	GLM 5V Turbo none	Z.ai	1	3.0	$0.052	0/1	2.23s
Totaal tests 1 Foute tests 1 Totale kosten $0.052 Responstijd (gem.) 2.23s
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	1	3.0	$0.016	0/1	1.11s
Totaal tests 1 Foute tests 1 Totale kosten $0.016 Responstijd (gem.) 1.11s
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
Totaal tests 1 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 2.38s
#109	Mimo V2 PRO none	Xiaomi	1	3.0	$0.045	0/1	1.63s
Totaal tests 1 Foute tests 1 Totale kosten $0.045 Responstijd (gem.) 1.63s

←

1 5 6 7 9

→

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Algemene kennis: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten