Ranglijst voor Domeinspecifiek x Verkeerd antwoord

Zie welke AI-modellen op Domeinspecifiek het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

421

Meest getroffen model

Muse Spark 1.1 3

Foutredenen

Verkeerd antwoord421 Time-out43 Extra opmaak17 Geen antwoord8 API-fout7 Instructies niet gevolgd1

Categorieën

Domeinspecifiek421 Anti-AI-trucs293 Programmeren259 Puzzeloplossing204 Algemene kennis172 Gecombineerd69 Algemene intelligentie62 Instructies opvolgen61 Gegevensparsering en extractie41 Toolaanroepen3

202/202

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
Totaal tests 3 Foute tests 2 Totale kosten $1.166 Responstijd (gem.) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
Totaal tests 3 Foute tests 2 Totale kosten $0.454 Responstijd (gem.) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.779 Responstijd (gem.) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
Totaal tests 3 Foute tests 3 Totale kosten $0.078 Responstijd (gem.) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
Totaal tests 3 Foute tests 3 Totale kosten $0.600 Responstijd (gem.) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
Totaal tests 3 Foute tests 2 Totale kosten $0.096 Responstijd (gem.) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
Totaal tests 3 Foute tests 3 Totale kosten $1.207 Responstijd (gem.) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
Totaal tests 3 Foute tests 2 Totale kosten $0.746 Responstijd (gem.) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
Totaal tests 3 Foute tests 3 Totale kosten $0.391 Responstijd (gem.) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
Totaal tests 3 Foute tests 2 Totale kosten $0.457 Responstijd (gem.) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
Totaal tests 3 Foute tests 3 Totale kosten $0.089 Responstijd (gem.) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
Totaal tests 3 Foute tests 2 Totale kosten $0.128 Responstijd (gem.) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
Totaal tests 3 Foute tests 2 Totale kosten $0.018 Responstijd (gem.) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
Totaal tests 3 Foute tests 2 Totale kosten $0.646 Responstijd (gem.) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
Totaal tests 3 Foute tests 2 Totale kosten $0.621 Responstijd (gem.) 1.52s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Domeinspecifiek: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten