Ranglijst voor Programmeren x Verkeerd antwoord

AI BENCHY Categoriefouten

Zie welke AI-modellen op Programmeren het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

230

Meest getroffen model

Qwen3.6 Flash 3

Foutredenen

Verkeerd antwoord230 API-fout43 Time-out23 Geen antwoord18 Instructies niet gevolgd16 Extra opmaak12

Categorieën

Domeinspecifiek367 Anti-AI-trucs270 Programmeren230 Puzzeloplossing172 Algemene kennis149 Gecombineerd58 Instructies opvolgen56 Algemene intelligentie49 Gegevensparsering en extractie36 Toolaanroepen3

134/134

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#97	Gemini 3.1 Flash Lite Preview none	Google	2	5.5	$0.018	1/3	967ms
Totaal tests 3 Foute tests 2 Totale kosten $0.018 Responstijd (gem.) 967ms
#98	Gemini 3.1 Flash Lite low	Google	2	5.5	$0.028	1/3	1.53s
Totaal tests 3 Foute tests 2 Totale kosten $0.028 Responstijd (gem.) 1.53s
#101	GPT-5.6 Sol none	OpenAI	2	5.5	$0.225	1/3	1.39s
Totaal tests 3 Foute tests 2 Totale kosten $0.225 Responstijd (gem.) 1.39s
#104	GPT-5.5 none	OpenAI	2	5.5	$0.231	1/3	1.35s
Totaal tests 3 Foute tests 2 Totale kosten $0.231 Responstijd (gem.) 1.35s
#106	Seed-2.0-Lite none	Bytedance Seed	2	5.6	$0.019	1/3	2.83s
Totaal tests 3 Foute tests 2 Totale kosten $0.019 Responstijd (gem.) 2.83s
#107	GPT-5.6 Luna low	OpenAI	2	5.5	$0.141	1/3	4.61s
Totaal tests 3 Foute tests 2 Totale kosten $0.141 Responstijd (gem.) 4.61s
#108	Gemini 2.5 Flash none	Google	2	5.5	$0.016	1/3	736ms
Totaal tests 3 Foute tests 2 Totale kosten $0.016 Responstijd (gem.) 736ms
#109	Gemini 3.1 Flash Lite minimal	Google	2	5.5	$0.013	1/3	831ms
Totaal tests 3 Foute tests 2 Totale kosten $0.013 Responstijd (gem.) 831ms
#111	Gemini 3.1 Flash Lite none	Google	2	5.5	$0.013	1/3	938ms
Totaal tests 3 Foute tests 2 Totale kosten $0.013 Responstijd (gem.) 938ms
#112	Qwen3.5-Flash none	Qwen	2	5.5	$0.005	1/3	850ms
Totaal tests 3 Foute tests 2 Totale kosten $0.005 Responstijd (gem.) 850ms
#113	Gemma 4 31B none	Google	2	5.5	$0.004	1/3	11.2s
Totaal tests 3 Foute tests 2 Totale kosten $0.004 Responstijd (gem.) 11.2s
#114	Nemotron 3 Ultra 550b A55b none	NVIDIA	2	5.5	$0.027	1/3	1.02s
Totaal tests 3 Foute tests 2 Totale kosten $0.027 Responstijd (gem.) 1.02s
#116	GPT-5.6 Terra none	OpenAI	2	5.5	$0.130	1/3	1.00s
Totaal tests 3 Foute tests 2 Totale kosten $0.130 Responstijd (gem.) 1.00s
#118	Qwen3.6 Flash none	Qwen	2	5.4	$0.015	1/3	1.79s
Totaal tests 3 Foute tests 2 Totale kosten $0.015 Responstijd (gem.) 1.79s
#119	Qwen3.5-35B-A3B none	Qwen	2	5.5	$0.012	1/3	1.39s
Totaal tests 3 Foute tests 2 Totale kosten $0.012 Responstijd (gem.) 1.39s

←

1 3 4 5 9

→

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Programmeren: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten