Ranglijst voor Domeinspecifiek x Verkeerd antwoord

Zie welke AI-modellen op Domeinspecifiek het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

421

Meest getroffen model

Muse Spark 1.1 3

Foutredenen

Verkeerd antwoord421 Time-out43 Extra opmaak17 Geen antwoord8 API-fout7 Instructies niet gevolgd1

Categorieën

Domeinspecifiek421 Anti-AI-trucs293 Programmeren259 Puzzeloplossing204 Algemene kennis172 Gecombineerd69 Algemene intelligentie62 Instructies opvolgen61 Gegevensparsering en extractie41 Toolaanroepen3

202/202

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#170	Inkling none	Thinkingmachines	2	5.3	$0.147	1/3	1.45s
Totaal tests 3 Foute tests 2 Totale kosten $0.147 Responstijd (gem.) 1.45s
#171	Mistral Small 4 none	Mistral	2	5.3	$0.022	1/3	367ms
Totaal tests 3 Foute tests 2 Totale kosten $0.022 Responstijd (gem.) 367ms
#172	Qwen3 Coder Next none	Qwen	2	5.3	$0.025	1/3	962ms
Totaal tests 3 Foute tests 2 Totale kosten $0.025 Responstijd (gem.) 962ms
#176	GLM 5 Turbo none	Z.ai	2	5.3	$0.047	1/3	1.97s
Totaal tests 3 Foute tests 2 Totale kosten $0.047 Responstijd (gem.) 1.97s
#179	DeepSeek V3.2 none	DeepSeek	2	2.9	$0.054	0/3	4.17s
Totaal tests 3 Foute tests 3 Totale kosten $0.054 Responstijd (gem.) 4.17s
#181	Qwen3.6 Plus Preview medium	Qwen	2	3.0	$0.000	0/3	22.1s
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 22.1s
#185	Ring-2.6-1T none	Inclusionai	2	5.3	$0.026	1/3	73.4s
Totaal tests 3 Foute tests 2 Totale kosten $0.026 Responstijd (gem.) 73.4s
#187	Grok 4.20 Multi Agent Beta medium	X AI	2	2.9	$5.599	0/3	24.7s
Totaal tests 3 Foute tests 3 Totale kosten $5.599 Responstijd (gem.) 24.7s
#189	Trinity Large Preview none	Arcee AI	2	5.3	$0.008	1/3	877ms
Totaal tests 3 Foute tests 2 Totale kosten $0.008 Responstijd (gem.) 877ms
#192	Laguna M.1 medium	Poolside	2	5.3	$0.033	1/3	24.1s
Totaal tests 3 Foute tests 2 Totale kosten $0.033 Responstijd (gem.) 24.1s
#193	Qwen3 Coder Next medium	Qwen	2	5.3	$0.032	1/3	638ms
Totaal tests 3 Foute tests 2 Totale kosten $0.032 Responstijd (gem.) 638ms
#195	Mercury 2 none	Inception	2	5.3	$0.030	1/3	534ms
Totaal tests 3 Foute tests 2 Totale kosten $0.030 Responstijd (gem.) 534ms
#196	MiniMax M2.5 medium	Minimax	2	2.9	$0.340	0/3	237.3s
Totaal tests 3 Foute tests 3 Totale kosten $0.340 Responstijd (gem.) 237.3s
#200	GLM 4.7 Flash medium	Z.ai	2	3.5	$0.166	0/3	174.6s
Totaal tests 3 Foute tests 3 Totale kosten $0.166 Responstijd (gem.) 174.6s
#202	Hunter Alpha none	OpenRouter	2	5.3	$0.000	1/3	2.33s
Totaal tests 3 Foute tests 2 Totale kosten $0.000 Responstijd (gem.) 2.33s

←

1 9 10 11 14

→

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Domeinspecifiek: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten