Ranglijst voor Algemene kennis x Verkeerd antwoord

AI BENCHY Categoriefouten

Zie welke AI-modellen op Algemene kennis het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

133

Meest getroffen model

Qwen3.7 Max 1

Foutredenen

Verkeerd antwoord133 API-fout13 Geen antwoord8

Categorieën

Domeinspecifiek325 Anti-AI-trucs250 Programmeren201 Puzzeloplossing154 Algemene kennis133 Instructies opvolgen54 Gecombineerd53 Algemene intelligentie36 Gegevensparsering en extractie35 Toolaanroepen2

133/133

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#126	DeepSeek V3.2 none	DeepSeek	1	3.0	$0.017	0/1	17.2s
Totaal tests 1 Foute tests 1 Totale kosten $0.017 Responstijd (gem.) 17.2s
#127	MiniMax M2.7 medium	Minimax	1	3.0	$0.104	0/1	22.8s
Totaal tests 1 Foute tests 1 Totale kosten $0.104 Responstijd (gem.) 22.8s
#128	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.031	0/1	414ms
Totaal tests 1 Foute tests 1 Totale kosten $0.031 Responstijd (gem.) 414ms
#129	Mistral Small 4 none	Mistral	1	3.0	$0.007	0/1	397ms
Totaal tests 1 Foute tests 1 Totale kosten $0.007 Responstijd (gem.) 397ms
#130	Qwen3 Coder Next none	Qwen	1	3.0	$0.009	0/1	601ms
Totaal tests 1 Foute tests 1 Totale kosten $0.009 Responstijd (gem.) 601ms
#131	North Mini Code none	Cohere	1	3.0	$0.000	0/1	37.4s
Totaal tests 1 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 37.4s
#133	Mistral Small 4 medium	Mistral	1	3.0	$0.068	0/1	5.92s
Totaal tests 1 Foute tests 1 Totale kosten $0.068 Responstijd (gem.) 5.92s
#134	MiMo-V2.5 none	Xiaomi	1	3.0	$0.007	0/1	3.89s
Totaal tests 1 Foute tests 1 Totale kosten $0.007 Responstijd (gem.) 3.89s
#135	Qwen3.5-9B none	Qwen	1	3.0	$0.006	0/1	2.32s
Totaal tests 1 Foute tests 1 Totale kosten $0.006 Responstijd (gem.) 2.32s
#137	Trinity Large Preview none	Arcee AI	1	3.0	$0.008	0/1	777ms
Totaal tests 1 Foute tests 1 Totale kosten $0.008 Responstijd (gem.) 777ms
#139	GPT-4o-mini none	OpenAI	1	3.0	$0.006	0/1	794ms
Totaal tests 1 Foute tests 1 Totale kosten $0.006 Responstijd (gem.) 794ms
#140	Cobuddy medium	Baidu	1	3.0	$0.000	0/1	37.0s
Totaal tests 1 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 37.0s
#141	GLM 4.7 Flash none	Z.ai	1	3.0	$0.004	0/1	692ms
Totaal tests 1 Foute tests 1 Totale kosten $0.004 Responstijd (gem.) 692ms
#142	Nemotron 3 Super none	NVIDIA	1	3.0	$0.007	0/1	8.94s
Totaal tests 1 Foute tests 1 Totale kosten $0.007 Responstijd (gem.) 8.94s
#143	Ling-2.6-flash none	Inclusionai	1	3.0	$0.001	0/1	1.06s
Totaal tests 1 Foute tests 1 Totale kosten $0.001 Responstijd (gem.) 1.06s

←

1 7 8 9

→

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Algemene kennis: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten