Ranglijst voor Domeinspecifiek x Verkeerd antwoord

Zie welke AI-modellen op Domeinspecifiek het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

412

Meest getroffen model

Muse Spark 1.1 3

Foutredenen

Verkeerd antwoord412 Time-out43 Extra opmaak17 Geen antwoord8 API-fout7 Instructies niet gevolgd1

Categorieën

Domeinspecifiek412 Anti-AI-trucs293 Programmeren252 Puzzeloplossing201 Algemene kennis168 Gecombineerd68 Instructies opvolgen61 Algemene intelligentie59 Gegevensparsering en extractie41 Toolaanroepen3

198/198

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#16	Muse Spark 1.1 medium	Meta	3	3.5	$1.357	0/3	71.4s
Totaal tests 3 Foute tests 3 Totale kosten $1.357 Responstijd (gem.) 71.4s
#19	Qwen3.6 Max Preview medium	Qwen	3	2.9	$1.143	0/3	95.9s
Totaal tests 3 Foute tests 3 Totale kosten $1.143 Responstijd (gem.) 95.9s
#20	Grok 4.5 low	X AI	3	3.0	$0.935	0/3	72.6s
Totaal tests 3 Foute tests 3 Totale kosten $0.935 Responstijd (gem.) 72.6s
#22	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
Totaal tests 3 Foute tests 3 Totale kosten $1.928 Responstijd (gem.) 198.9s
#24	Muse Spark 1.1 low	Meta	3	2.9	$0.647	0/3	29.7s
Totaal tests 3 Foute tests 3 Totale kosten $0.647 Responstijd (gem.) 29.7s
#36	Qwen3.7 Plus medium	Qwen	3	3.6	$0.267	0/3	45.3s
Totaal tests 3 Foute tests 3 Totale kosten $0.267 Responstijd (gem.) 45.3s
#37	Qwen3.6 Plus medium	Qwen	3	2.9	$0.405	0/3	29.6s
Totaal tests 3 Foute tests 3 Totale kosten $0.405 Responstijd (gem.) 29.6s
#45	DeepSeek V4 Flash high	DeepSeek	3	4.1	$0.042	0/3	100.3s
Totaal tests 3 Foute tests 3 Totale kosten $0.042 Responstijd (gem.) 100.3s
#51	Nemotron 3 Ultra medium	NVIDIA	3	3.5	$0.774	0/3	24.9s
Totaal tests 3 Foute tests 3 Totale kosten $0.774 Responstijd (gem.) 24.9s
#54	GPT-5.3 Chat none	OpenAI	3	3.5	$0.571	0/3	13.0s
Totaal tests 3 Foute tests 3 Totale kosten $0.571 Responstijd (gem.) 13.0s
#56	GPT-5.4 Mini medium	OpenAI	3	4.1	$0.756	0/3	65.3s
Totaal tests 3 Foute tests 3 Totale kosten $0.756 Responstijd (gem.) 65.3s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	3	4.1	$0.387	0/3	17.5s
Totaal tests 3 Foute tests 3 Totale kosten $0.387 Responstijd (gem.) 17.5s
#64	Gemini 3.1 Flash Lite Preview medium	Google	3	3.0	$0.115	0/3	4.21s
Totaal tests 3 Foute tests 3 Totale kosten $0.115 Responstijd (gem.) 4.21s
#65	Gemini 3.1 Flash Lite medium	Google	3	2.9	$0.117	0/3	3.16s
Totaal tests 3 Foute tests 3 Totale kosten $0.117 Responstijd (gem.) 3.16s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	3	2.9	$0.482	0/3	35.3s
Totaal tests 3 Foute tests 3 Totale kosten $0.482 Responstijd (gem.) 35.3s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Domeinspecifiek: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten