Ranglijst voor Programmeren x Verkeerd antwoord

AI BENCHY Categoriefouten

Zie welke AI-modellen op Programmeren het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet. Sorteren op: Aantal fouten ↑.

Getoonde modellen

Totaal fouten

230

Meest getroffen model

Gemini 3 Flash Preview 1

Foutredenen

Verkeerd antwoord230 API-fout43 Time-out23 Geen antwoord18 Instructies niet gevolgd16 Extra opmaak12

Categorieën

Domeinspecifiek367 Anti-AI-trucs270 Programmeren230 Puzzeloplossing172 Algemene kennis149 Gecombineerd58 Instructies opvolgen56 Algemene intelligentie49 Gegevensparsering en extractie36 Toolaanroepen3

134/134

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#2	Gemini 3 Flash Preview medium	Google	1	8.6	$0.667	2/3	84.4s
Totaal tests 3 Foute tests 1 Totale kosten $0.667 Responstijd (gem.) 84.4s
#8	Gemini 3.5 Flash low	Google	1	7.8	$0.349	2/3	6.71s
Totaal tests 3 Foute tests 1 Totale kosten $0.349 Responstijd (gem.) 6.71s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.9	$1.054	2/3	40.2s
Totaal tests 3 Foute tests 1 Totale kosten $1.054 Responstijd (gem.) 40.2s
#12	GPT-5.5 medium	OpenAI	1	8.8	$3.679	2/3	59.8s
Totaal tests 3 Foute tests 1 Totale kosten $3.679 Responstijd (gem.) 59.8s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Totaal tests 3 Foute tests 1 Totale kosten $0.960 Responstijd (gem.) 146.5s
#16	Claude Opus 4.7 medium	Anthropic	1	7.6	$0.679	2/3	13.0s
Totaal tests 3 Foute tests 1 Totale kosten $0.679 Responstijd (gem.) 13.0s
#17	GLM 5.2 medium	Z.ai	1	8.2	$0.129	2/3	41.0s
Totaal tests 3 Foute tests 1 Totale kosten $0.129 Responstijd (gem.) 41.0s
#20	GPT-5.4 medium	OpenAI	1	8.8	$1.210	2/3	44.4s
Totaal tests 3 Foute tests 1 Totale kosten $1.210 Responstijd (gem.) 44.4s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Totaal tests 3 Foute tests 1 Totale kosten $0.175 Responstijd (gem.) 156.7s
#22	GPT-5.2 Chat none	OpenAI	1	8.8	$0.393	2/3	9.82s
Totaal tests 3 Foute tests 1 Totale kosten $0.393 Responstijd (gem.) 9.82s
#23	Step 3.7 Flash medium	Stepfun	1	8.8	$0.376	2/3	27.4s
Totaal tests 3 Foute tests 1 Totale kosten $0.376 Responstijd (gem.) 27.4s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Totaal tests 3 Foute tests 1 Totale kosten $1.696 Responstijd (gem.) 155.7s
#27	DeepSeek V4 Flash high	DeepSeek	1	7.8	$0.027	2/3	50.6s
Totaal tests 3 Foute tests 1 Totale kosten $0.027 Responstijd (gem.) 50.6s
#28	Gemini 2.5 Flash medium	Google	1	7.8	$0.379	2/3	41.0s
Totaal tests 3 Foute tests 1 Totale kosten $0.379 Responstijd (gem.) 41.0s
#29	GPT-5.6 Terra high	OpenAI	1	7.6	$0.852	2/3	9.14s
Totaal tests 3 Foute tests 1 Totale kosten $0.852 Responstijd (gem.) 9.14s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Programmeren: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten