Foutenranglijst voor Verkeerd antwoord

Zie welke AI-modellen het vaakst tegen Verkeerd antwoord aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

1585

Meest getroffen model

Step 3.5 Flash 4

Categorieën

In categorie Domeinspecifiek421 In categorie Anti-AI-trucs293 In categorie Programmeren259 In categorie Puzzeloplossing204 In categorie Algemene kennis172 In categorie Gecombineerd69 In categorie Algemene intelligentie62 In categorie Instructies opvolgen61 In categorie Gegevensparsering en extractie41 In categorie Toolaanroepen3

215/215

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Totaal tests 18 Foute tests 8 Totale kosten $2.044 Responstijd (gem.) 62.0s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
Totaal tests 22 Foute tests 6 Totale kosten $1.928 Responstijd (gem.) 61.7s
#94	Qwen3.6 35B A3B medium	Qwen	4	6.7	$0.746	13/22	58.1s
Totaal tests 22 Foute tests 9 Totale kosten $0.746 Responstijd (gem.) 58.1s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Totaal tests 21 Foute tests 10 Totale kosten $0.048 Responstijd (gem.) 56.6s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.026 Responstijd (gem.) 55.1s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.114 Responstijd (gem.) 54.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Totaal tests 22 Foute tests 8 Totale kosten $1.097 Responstijd (gem.) 52.1s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
Totaal tests 22 Foute tests 14 Totale kosten $0.055 Responstijd (gem.) 52.0s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Totaal tests 22 Foute tests 7 Totale kosten $0.267 Responstijd (gem.) 51.5s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Totaal tests 22 Foute tests 9 Totale kosten $0.041 Responstijd (gem.) 49.7s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Totaal tests 22 Foute tests 8 Totale kosten $0.234 Responstijd (gem.) 48.5s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Totaal tests 22 Foute tests 13 Totale kosten $0.068 Responstijd (gem.) 47.9s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Totaal tests 22 Foute tests 9 Totale kosten $0.779 Responstijd (gem.) 47.4s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
Totaal tests 22 Foute tests 9 Totale kosten $0.535 Responstijd (gem.) 46.8s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Totaal tests 22 Foute tests 9 Totale kosten $0.317 Responstijd (gem.) 46.4s

Verkeerd antwoord-fouten

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)