Ranglijst voor Programmeren x Verkeerd antwoord

AI BENCHY Categoriefouten

Zie welke AI-modellen op Programmeren het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

230

Meest getroffen model

North Mini Code 3

Foutredenen

Verkeerd antwoord230 API-fout43 Time-out23 Geen antwoord18 Instructies niet gevolgd16 Extra opmaak12

Categorieën

Domeinspecifiek367 Anti-AI-trucs270 Programmeren230 Puzzeloplossing172 Algemene kennis149 Gecombineerd58 Instructies opvolgen56 Algemene intelligentie49 Gegevensparsering en extractie36 Toolaanroepen3

134/134

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#123	North Mini Code medium	Cohere	3	4.5	$0.000	0/3	320.4s
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 320.4s
#60	DeepSeek V3.2 medium	DeepSeek	1	6.0	$0.044	1/3	248.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.044 Responstijd (gem.) 248.7s
#62	Seed-2.0-Mini medium	Bytedance Seed	1	5.5	$0.044	1/3	220.5s
Totaal tests 3 Foute tests 2 Totale kosten $0.044 Responstijd (gem.) 220.5s
#75	Step 3.7 Flash high	Stepfun	1	4.0	$1.148	0/3	206.2s
Totaal tests 3 Foute tests 3 Totale kosten $1.148 Responstijd (gem.) 206.2s
#165	MiniMax M2.5 medium	Minimax	1	3.4	$0.303	0/3	188.6s
Totaal tests 3 Foute tests 3 Totale kosten $0.303 Responstijd (gem.) 188.6s
#86	Mimo V2 Omni medium	Xiaomi	1	3.3	$0.683	0/3	183.9s
Totaal tests 3 Foute tests 3 Totale kosten $0.683 Responstijd (gem.) 183.9s
#33	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	6.6	$0.310	1/3	180.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.310 Responstijd (gem.) 180.7s
#34	Qwen3.5-27B medium	Qwen	2	6.2	$0.536	1/3	160.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.536 Responstijd (gem.) 160.7s
#21	Seed-2.0-Lite medium	Bytedance Seed	1	8.0	$0.175	2/3	156.7s
Totaal tests 3 Foute tests 1 Totale kosten $0.175 Responstijd (gem.) 156.7s
#26	Grok 4.5 medium	X AI	1	7.6	$1.696	2/3	155.7s
Totaal tests 3 Foute tests 1 Totale kosten $1.696 Responstijd (gem.) 155.7s
#36	Qwen3.6 Plus medium	Qwen	1	6.1	$0.294	1/3	153.1s
Totaal tests 3 Foute tests 2 Totale kosten $0.294 Responstijd (gem.) 153.1s
#14	Qwen3.6 Max Preview medium	Qwen	1	8.8	$0.960	2/3	146.5s
Totaal tests 3 Foute tests 1 Totale kosten $0.960 Responstijd (gem.) 146.5s
#41	Qwen3.5 Plus 2026-04-20 medium	Qwen	2	6.2	$0.317	1/3	125.3s
Totaal tests 3 Foute tests 2 Totale kosten $0.317 Responstijd (gem.) 125.3s
#44	Qwen3.5-122B-A10B medium	Qwen	1	6.0	$0.588	1/3	114.5s
Totaal tests 3 Foute tests 2 Totale kosten $0.588 Responstijd (gem.) 114.5s
#65	Grok 4.20 medium	X AI	2	6.3	$0.609	1/3	109.9s
Totaal tests 3 Foute tests 2 Totale kosten $0.609 Responstijd (gem.) 109.9s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Programmeren: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten