Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Correcte tests ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Granite 4.1 8B 13

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Totaal tests 22 Foute tests 11 Totale kosten $0.467 Responstijd (gem.) 24.0s
#87	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Totaal tests 22 Foute tests 11 Totale kosten $0.524 Responstijd (gem.) 2.16s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Totaal tests 22 Foute tests 11 Totale kosten $1.207 Responstijd (gem.) 64.7s
#91	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Totaal tests 22 Foute tests 11 Totale kosten $0.544 Responstijd (gem.) 2.36s
#97	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Totaal tests 22 Foute tests 11 Totale kosten $0.476 Responstijd (gem.) 25.6s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Totaal tests 22 Foute tests 11 Totale kosten $0.103 Responstijd (gem.) 68.7s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Totaal tests 22 Foute tests 11 Totale kosten $0.837 Responstijd (gem.) 112.5s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Totaal tests 12 Foute tests 6 Totale kosten $0.020 Responstijd (gem.) 39.0s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Totaal tests 21 Foute tests 10 Totale kosten $0.457 Responstijd (gem.) 23.1s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
Totaal tests 21 Foute tests 10 Totale kosten $0.108 Responstijd (gem.) 174.2s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Totaal tests 21 Foute tests 10 Totale kosten $0.048 Responstijd (gem.) 56.6s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Totaal tests 22 Foute tests 10 Totale kosten $0.237 Responstijd (gem.) 27.6s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Totaal tests 22 Foute tests 10 Totale kosten $1.694 Responstijd (gem.) 31.5s
#51	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Totaal tests 22 Foute tests 10 Totale kosten $0.286 Responstijd (gem.) 75.0s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
Totaal tests 22 Foute tests 10 Totale kosten $0.740 Responstijd (gem.) 84.2s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)