Ranglijst voor Domeinspecifiek x Verkeerd antwoord

Zie welke AI-modellen op Domeinspecifiek het meest kans hebben op Verkeerd antwoord, zodat je zwakke punten sneller ziet.

Getoonde modellen

Totaal fouten

412

Meest getroffen model

Muse Spark 1.1 3

Foutredenen

Verkeerd antwoord412 Time-out43 Extra opmaak17 Geen antwoord8 API-fout7 Instructies niet gevolgd1

Categorieën

Domeinspecifiek412 Anti-AI-trucs293 Programmeren252 Puzzeloplossing201 Algemene kennis168 Gecombineerd68 Instructies opvolgen61 Algemene intelligentie59 Gegevensparsering en extractie41 Toolaanroepen3

198/198

Rang	Model	Bedrijf	Verkeerd antwoord-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
Totaal tests 3 Foute tests 3 Totale kosten $0.317 Responstijd (gem.) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
Totaal tests 3 Foute tests 3 Totale kosten $0.106 Responstijd (gem.) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
Totaal tests 3 Foute tests 3 Totale kosten $1.046 Responstijd (gem.) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
Totaal tests 3 Foute tests 3 Totale kosten $0.093 Responstijd (gem.) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
Totaal tests 3 Foute tests 3 Totale kosten $0.467 Responstijd (gem.) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
Totaal tests 3 Foute tests 3 Totale kosten $0.524 Responstijd (gem.) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
Totaal tests 3 Foute tests 3 Totale kosten $0.738 Responstijd (gem.) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
Totaal tests 3 Foute tests 3 Totale kosten $0.544 Responstijd (gem.) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
Totaal tests 3 Foute tests 3 Totale kosten $0.476 Responstijd (gem.) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
Totaal tests 3 Foute tests 3 Totale kosten $0.779 Responstijd (gem.) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
Totaal tests 3 Foute tests 3 Totale kosten $0.068 Responstijd (gem.) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
Totaal tests 3 Foute tests 3 Totale kosten $0.090 Responstijd (gem.) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
Totaal tests 3 Foute tests 3 Totale kosten $0.103 Responstijd (gem.) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Totaal tests 3 Foute tests 3 Totale kosten $0.044 Responstijd (gem.) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
Totaal tests 3 Foute tests 3 Totale kosten $0.066 Responstijd (gem.) 1.33s

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Domeinspecifiek: Verkeerd antwoord

Modellen filteren

Topmodellen op Verkeerd antwoord-aantal

Verkeerd antwoord-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten