Ranglijst voor Algemene kennis x Verkeerd antwoord

AI BENCHY Categoriefouten

Zie welke AI-modellen op Algemene kennis het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet. Sorteren op: Correcte tests ↓.

Getoonde modellen

Totaal fouten

133

Meest getroffen model

Qwen3.7 Max 1

Foutredenen

Verkeerd antwoord133 API-fout13 Geen antwoord8

Categorieën

Domeinspecifiek325 Anti-AI-trucs250 Programmeren201 Puzzeloplossing154 Algemene kennis133 Instructies opvolgen54 Gecombineerd53 Algemene intelligentie36 Gegevensparsering en extractie35 Toolaanroepen2

133/133

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
Totaal tests 1 Foute tests 1 Totale kosten $0.523 Responstijd (gem.) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
Totaal tests 1 Foute tests 1 Totale kosten $0.907 Responstijd (gem.) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
Totaal tests 1 Foute tests 1 Totale kosten $3.679 Responstijd (gem.) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
Totaal tests 1 Foute tests 1 Totale kosten $0.740 Responstijd (gem.) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
Totaal tests 1 Foute tests 1 Totale kosten $0.960 Responstijd (gem.) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
Totaal tests 1 Foute tests 1 Totale kosten $0.679 Responstijd (gem.) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
Totaal tests 1 Foute tests 1 Totale kosten $0.228 Responstijd (gem.) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
Totaal tests 1 Foute tests 1 Totale kosten $0.159 Responstijd (gem.) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
Totaal tests 1 Foute tests 1 Totale kosten $1.210 Responstijd (gem.) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
Totaal tests 1 Foute tests 1 Totale kosten $0.175 Responstijd (gem.) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
Totaal tests 1 Foute tests 1 Totale kosten $0.393 Responstijd (gem.) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
Totaal tests 1 Foute tests 1 Totale kosten $0.323 Responstijd (gem.) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
Totaal tests 1 Foute tests 1 Totale kosten $0.548 Responstijd (gem.) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
Totaal tests 1 Foute tests 1 Totale kosten $0.027 Responstijd (gem.) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
Totaal tests 1 Foute tests 1 Totale kosten $0.379 Responstijd (gem.) 2.76s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Algemene kennis: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten