Ranglijst voor Domeinspecifiek x Verkeerd antwoord

Zie welke AI-modellen op Domeinspecifiek het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

412

Meest getroffen model

Muse Spark 1.1 3

Foutredenen

Verkeerd antwoord412 Time-out43 Extra opmaak17 Geen antwoord8 API-fout7 Instructies niet gevolgd1

Categorieën

Domeinspecifiek412 Anti-AI-trucs293 Programmeren252 Puzzeloplossing201 Algemene kennis168 Gecombineerd68 Instructies opvolgen61 Algemene intelligentie59 Gegevensparsering en extractie41 Toolaanroepen3

198/198

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#117	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
Totaal tests 3 Foute tests 3 Totale kosten $0.249 Responstijd (gem.) 10.0s
#120	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
Totaal tests 3 Foute tests 3 Totale kosten $0.047 Responstijd (gem.) 1.02s
#121	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
Totaal tests 3 Foute tests 3 Totale kosten $0.019 Responstijd (gem.) 50.9s
#122	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
Totaal tests 3 Foute tests 3 Totale kosten $0.046 Responstijd (gem.) 762ms
#136	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
Totaal tests 3 Foute tests 3 Totale kosten $0.095 Responstijd (gem.) 937ms
#141	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
Totaal tests 3 Foute tests 3 Totale kosten $0.041 Responstijd (gem.) 2.24s
#143	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
Totaal tests 3 Foute tests 3 Totale kosten $2.044 Responstijd (gem.) 139.9s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
Totaal tests 3 Foute tests 3 Totale kosten $0.048 Responstijd (gem.) 4.87s
#151	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
Totaal tests 3 Foute tests 3 Totale kosten $0.164 Responstijd (gem.) 1.99s
#156	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
Totaal tests 3 Foute tests 3 Totale kosten $0.015 Responstijd (gem.) 2.49s
#159	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
Totaal tests 3 Foute tests 3 Totale kosten $0.142 Responstijd (gem.) 737ms
#161	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
Totaal tests 3 Foute tests 3 Totale kosten $0.061 Responstijd (gem.) 7.45s
#162	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
Totaal tests 3 Foute tests 3 Totale kosten $0.016 Responstijd (gem.) 1.04s
#168	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
Totaal tests 3 Foute tests 3 Totale kosten $0.025 Responstijd (gem.) 756ms
#169	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Totaal tests 3 Foute tests 3 Totale kosten $0.021 Responstijd (gem.) 464ms

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Domeinspecifiek: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten