Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Aantal fouten ↑.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Gemini 3.6 Flash 1

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Totaal tests 22 Foute tests 12 Totale kosten $0.200 Responstijd (gem.) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Totaal tests 22 Foute tests 10 Totale kosten $0.756 Responstijd (gem.) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Totaal tests 22 Foute tests 6 Totale kosten $0.177 Responstijd (gem.) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Totaal tests 22 Foute tests 10 Totale kosten $0.777 Responstijd (gem.) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Totaal tests 22 Foute tests 11 Totale kosten $1.207 Responstijd (gem.) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Totaal tests 22 Foute tests 13 Totale kosten $0.469 Responstijd (gem.) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Totaal tests 22 Foute tests 12 Totale kosten $0.779 Responstijd (gem.) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Totaal tests 22 Foute tests 11 Totale kosten $0.103 Responstijd (gem.) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Totaal tests 22 Foute tests 17 Totale kosten $0.163 Responstijd (gem.) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Totaal tests 19 Foute tests 13 Totale kosten $0.015 Responstijd (gem.) 6.73s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Totaal tests 22 Foute tests 8 Totale kosten $1.055 Responstijd (gem.) 11.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Totaal tests 22 Foute tests 7 Totale kosten $1.017 Responstijd (gem.) 18.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Totaal tests 22 Foute tests 9 Totale kosten $0.774 Responstijd (gem.) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Totaal tests 22 Foute tests 9 Totale kosten $0.571 Responstijd (gem.) 6.88s
#63	Qwen3.7 Max none	Qwen	7	7.4	$0.197	15/22	4.52s
Totaal tests 22 Foute tests 7 Totale kosten $0.197 Responstijd (gem.) 4.52s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)