Ranglijst voor Puzzeloplossing x Verkeerd antwoord

Zie welke AI-modellen op Puzzeloplossing het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

201

Meest getroffen model

Qwen3.5-Flash 3

Foutredenen

Verkeerd antwoord201 Instructies niet gevolgd90 API-fout12 Extra opmaak8 Time-out5 Geen antwoord3

Categorieën

Domeinspecifiek412 Anti-AI-trucs293 Programmeren252 Puzzeloplossing201 Algemene kennis168 Gecombineerd68 Instructies opvolgen61 Algemene intelligentie59 Gegevensparsering en extractie41 Toolaanroepen3

142/142

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#67	Step 3.7 Flash low	Stepfun	2	5.5	$0.454	1/3	1.84s
Totaal tests 3 Foute tests 2 Totale kosten $0.454 Responstijd (gem.) 1.84s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	2	5.9	$0.467	1/3	3.20s
Totaal tests 3 Foute tests 2 Totale kosten $0.467 Responstijd (gem.) 3.20s
#86	Step 3.7 Flash high	Stepfun	2	5.3	$1.207	1/3	10.2s
Totaal tests 3 Foute tests 2 Totale kosten $1.207 Responstijd (gem.) 10.2s
#91	LongCat 2.0 low	Meituan	2	3.1	$0.391	0/3	8.15s
Totaal tests 3 Foute tests 3 Totale kosten $0.391 Responstijd (gem.) 8.15s
#97	LongCat 2.0 high	Meituan	2	3.1	$0.469	0/3	9.18s
Totaal tests 3 Foute tests 3 Totale kosten $0.469 Responstijd (gem.) 9.18s
#102	Laguna XS 2.1 medium	Poolside	2	5.3	$0.068	1/3	3.43s
Totaal tests 3 Foute tests 2 Totale kosten $0.068 Responstijd (gem.) 3.43s
#111	LongCat 2.0 none	Meituan	2	4.0	$0.044	0/3	2.74s
Totaal tests 3 Foute tests 3 Totale kosten $0.044 Responstijd (gem.) 2.74s
#116	Seed-2.0-Lite none	Bytedance Seed	2	5.3	$0.066	1/3	2.78s
Totaal tests 3 Foute tests 2 Totale kosten $0.066 Responstijd (gem.) 2.78s
#124	Qwen3.6 Flash none	Qwen	2	3.5	$0.062	0/3	1.21s
Totaal tests 3 Foute tests 3 Totale kosten $0.062 Responstijd (gem.) 1.21s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	2	6.7	$0.122	1/3	1.97s
Totaal tests 3 Foute tests 2 Totale kosten $0.122 Responstijd (gem.) 1.97s
#127	Qwen3.5-35B-A3B none	Qwen	2	3.7	$0.106	0/3	1.35s
Totaal tests 3 Foute tests 3 Totale kosten $0.106 Responstijd (gem.) 1.35s
#132	GPT-5.6 Terra none	OpenAI	2	5.3	$0.349	1/3	1.23s
Totaal tests 3 Foute tests 2 Totale kosten $0.349 Responstijd (gem.) 1.23s
#138	Kimi K2.6 none	Moonshot AI	2	3.1	$0.184	0/3	1.40s
Totaal tests 3 Foute tests 3 Totale kosten $0.184 Responstijd (gem.) 1.40s
#140	Nemotron 3 Super medium	NVIDIA	2	3.0	$0.050	0/3	3.15s
Totaal tests 3 Foute tests 3 Totale kosten $0.050 Responstijd (gem.) 3.15s
#142	Qwen3.5-122B-A10B none	Qwen	2	3.8	$0.247	0/3	1.00s
Totaal tests 3 Foute tests 3 Totale kosten $0.247 Responstijd (gem.) 1.00s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Puzzeloplossing: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten