Ranglijst voor Domeinspecifiek x Verkeerd antwoord

Zie welke AI-modellen op Domeinspecifiek het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

421

Meest getroffen model

Muse Spark 1.1 3

Foutredenen

Verkeerd antwoord421 Time-out43 Extra opmaak17 Geen antwoord8 API-fout7 Instructies niet gevolgd1

Categorieën

Domeinspecifiek421 Anti-AI-trucs293 Programmeren259 Puzzeloplossing204 Algemene kennis172 Gecombineerd69 Algemene intelligentie62 Instructies opvolgen61 Gegevensparsering en extractie41 Toolaanroepen3

202/202

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#144	Kimi K2.6 none	Moonshot AI	2	5.3	$0.184	1/3	1.48s
Totaal tests 3 Foute tests 2 Totale kosten $0.184 Responstijd (gem.) 1.48s
#145	GPT-5.4 none	OpenAI	2	5.3	$0.397	1/3	1.07s
Totaal tests 3 Foute tests 2 Totale kosten $0.397 Responstijd (gem.) 1.07s
#146	Nemotron 3 Super medium	NVIDIA	2	2.9	$0.055	0/3	16.2s
Totaal tests 3 Foute tests 3 Totale kosten $0.055 Responstijd (gem.) 16.2s
#148	Qwen3.5-122B-A10B none	Qwen	2	5.3	$0.247	1/3	465ms
Totaal tests 3 Foute tests 2 Totale kosten $0.247 Responstijd (gem.) 465ms
#151	GLM 5V Turbo none	Z.ai	2	5.3	$0.052	1/3	2.09s
Totaal tests 3 Foute tests 2 Totale kosten $0.052 Responstijd (gem.) 2.09s
#152	Owl Alpha medium	Openrouter	2	5.3	$0.000	1/3	8.58s
Totaal tests 3 Foute tests 2 Totale kosten $0.000 Responstijd (gem.) 8.58s
#153	Mimo V2 PRO none	Xiaomi	2	5.3	$0.045	1/3	1.78s
Totaal tests 3 Foute tests 2 Totale kosten $0.045 Responstijd (gem.) 1.78s
#154	Owl Alpha none	Openrouter	2	5.3	$0.000	1/3	3.00s
Totaal tests 3 Foute tests 2 Totale kosten $0.000 Responstijd (gem.) 3.00s
#156	DeepSeek V4 Flash none	DeepSeek	2	5.3	$0.042	1/3	19.7s
Totaal tests 3 Foute tests 2 Totale kosten $0.042 Responstijd (gem.) 19.7s
#159	Hy3 preview low	Tencent	2	5.9	$0.015	1/3	40.4s
Totaal tests 3 Foute tests 2 Totale kosten $0.015 Responstijd (gem.) 40.4s
#160	MiMo-V2.5-Pro none	Xiaomi	2	5.3	$0.068	1/3	877ms
Totaal tests 3 Foute tests 2 Totale kosten $0.068 Responstijd (gem.) 877ms
#161	Kimi K2.5 none	Moonshot AI	2	5.3	$0.127	1/3	4.38s
Totaal tests 3 Foute tests 2 Totale kosten $0.127 Responstijd (gem.) 4.38s
#163	Mimo V2 Omni none	Xiaomi	2	5.3	$0.021	1/3	2.10s
Totaal tests 3 Foute tests 2 Totale kosten $0.021 Responstijd (gem.) 2.10s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/3	364ms
Totaal tests 3 Foute tests 2 Totale kosten $0.008 Responstijd (gem.) 364ms
#169	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	1/3	127.6s
Totaal tests 3 Foute tests 2 Totale kosten $2.310 Responstijd (gem.) 127.6s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Domeinspecifiek: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten