Ranglijst voor Programmeren x Verkeerd antwoord

AI BENCHY Categoriefouten

Zie welke AI-modellen op Programmeren het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet. Sorteren op: Responstijd (gem.) ↑.

Getoonde modellen

Totaal fouten

230

Meest getroffen model

Laguna XS 2.1 3

Foutredenen

Verkeerd antwoord230 API-fout43 Time-out23 Geen antwoord18 Instructies niet gevolgd16 Extra opmaak12

Categorieën

Domeinspecifiek367 Anti-AI-trucs270 Programmeren230 Puzzeloplossing172 Algemene kennis149 Gecombineerd58 Instructies opvolgen56 Algemene intelligentie49 Gegevensparsering en extractie36 Toolaanroepen3

134/134

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#141	Laguna XS 2.1 none	Poolside	3	4.3	$0.003	0/3	623ms
Totaal tests 3 Foute tests 3 Totale kosten $0.003 Responstijd (gem.) 623ms
#108	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Totaal tests 3 Foute tests 2 Totale kosten $0.016 Responstijd (gem.) 736ms
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Totaal tests 3 Foute tests 3 Totale kosten $0.003 Responstijd (gem.) 775ms
#109	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Totaal tests 3 Foute tests 2 Totale kosten $0.013 Responstijd (gem.) 831ms
#112	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Totaal tests 3 Foute tests 2 Totale kosten $0.005 Responstijd (gem.) 850ms
#148	Mistral Small 4 none	Mistral	3	3.7	$0.007	0/3	901ms
Totaal tests 3 Foute tests 3 Totale kosten $0.007 Responstijd (gem.) 901ms
#143	GPT-5.4 Mini none	OpenAI	2	5.5	$0.038	1/3	913ms
Totaal tests 3 Foute tests 2 Totale kosten $0.038 Responstijd (gem.) 913ms
#167	Qwen3 Coder Next medium	Qwen	2	3.7	$0.008	0/3	924ms
Totaal tests 3 Foute tests 3 Totale kosten $0.008 Responstijd (gem.) 924ms
#111	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Totaal tests 3 Foute tests 2 Totale kosten $0.013 Responstijd (gem.) 938ms
#97	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Totaal tests 3 Foute tests 2 Totale kosten $0.018 Responstijd (gem.) 967ms
#142	GPT-5.6 Luna none	OpenAI	3	3.8	$0.047	0/3	980ms
Totaal tests 3 Foute tests 3 Totale kosten $0.047 Responstijd (gem.) 980ms
#116	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Totaal tests 3 Foute tests 2 Totale kosten $0.130 Responstijd (gem.) 1.00s
#114	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Totaal tests 3 Foute tests 2 Totale kosten $0.027 Responstijd (gem.) 1.02s
#170	Mercury 2 none	Inception	3	3.4	$0.011	0/3	1.03s
Totaal tests 3 Foute tests 3 Totale kosten $0.011 Responstijd (gem.) 1.03s
#168	Grok 4.20 Beta none	X AI	1	1.8	$0.087	0/1	1.14s
Totaal tests 1 Foute tests 1 Totale kosten $0.087 Responstijd (gem.) 1.14s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Programmeren: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten