Ranglijst voor Domeinspecifiek x Verkeerd antwoord

Zie welke AI-modellen op Domeinspecifiek het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

421

Meest getroffen model

Muse Spark 1.1 3

Foutredenen

Verkeerd antwoord421 Time-out43 Extra opmaak17 Geen antwoord8 API-fout7 Instructies niet gevolgd1

Categorieën

Domeinspecifiek421 Anti-AI-trucs293 Programmeren259 Puzzeloplossing204 Algemene kennis172 Gecombineerd69 Algemene intelligentie62 Instructies opvolgen61 Gegevensparsering en extractie41 Toolaanroepen3

202/202

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#174	MiMo-V2.5 none	Xiaomi	3	3.0	$0.025	0/3	756ms
Totaal tests 3 Foute tests 3 Totale kosten $0.025 Responstijd (gem.) 756ms
#175	Qwen3.5-9B none	Qwen	3	3.0	$0.021	0/3	464ms
Totaal tests 3 Foute tests 3 Totale kosten $0.021 Responstijd (gem.) 464ms
#177	North Mini Code none	Cohere	3	3.0	$0.000	0/3	14.7s
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 14.7s
#180	GPT-4o-mini none	OpenAI	3	3.0	$0.010	0/3	637ms
Totaal tests 3 Foute tests 3 Totale kosten $0.010 Responstijd (gem.) 637ms
#183	Nemotron 3 Super none	NVIDIA	3	3.6	$0.008	0/3	6.23s
Totaal tests 3 Foute tests 3 Totale kosten $0.008 Responstijd (gem.) 6.23s
#184	Ling-2.6-flash none	Inclusionai	3	3.0	$0.002	0/3	4.95s
Totaal tests 3 Foute tests 3 Totale kosten $0.002 Responstijd (gem.) 4.95s
#186	GPT-5.4 Nano none	OpenAI	3	2.9	$0.041	0/3	926ms
Totaal tests 3 Foute tests 3 Totale kosten $0.041 Responstijd (gem.) 926ms
#188	KAT-Coder-Air V2.5 none	Kwaipilot	3	2.9	$0.067	0/3	6.24s
Totaal tests 3 Foute tests 3 Totale kosten $0.067 Responstijd (gem.) 6.24s
#194	Cobuddy medium	Baidu	3	2.9	$0.000	0/3	128.2s
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 128.2s
#197	Grok 4.20 Beta none	X AI	3	3.0	$0.087	0/3	611ms
Totaal tests 3 Foute tests 3 Totale kosten $0.087 Responstijd (gem.) 611ms
#198	Laguna M.1 none	Poolside	3	3.6	$0.009	0/3	5.50s
Totaal tests 3 Foute tests 3 Totale kosten $0.009 Responstijd (gem.) 5.50s
#199	Elephant Alpha none	Openrouter	3	3.0	$0.000	0/3	927ms
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 927ms
#201	Elephant Alpha medium	Openrouter	3	3.0	$0.000	0/3	925ms
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 925ms
#207	Granite 4.1 8B none	IBM Granite	3	3.0	$0.007	0/3	357ms
Totaal tests 3 Foute tests 3 Totale kosten $0.007 Responstijd (gem.) 357ms
#212	gpt-oss-120b none	OpenAI	3	3.0	$0.010	0/3	35.0s
Totaal tests 3 Foute tests 3 Totale kosten $0.010 Responstijd (gem.) 35.0s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Domeinspecifiek: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten