Ranglijst voor Anti-AI-trucs x API-fout

Zie welke AI-modellen op Anti-AI-trucs het meest kans hebben op API-fout, zodat je zwakke punten sneller ziet. Sorteren op: Correcte tests ↑.

Getoonde modellen

Totaal fouten

Meest getroffen model

DeepSeek V3.2 1

Foutredenen

Verkeerd antwoord293 Instructies niet gevolgd33 Extra opmaak20 API-fout14 Geen antwoord4 Time-out4

Categorieën

Programmeren45 Gecombineerd26 Toolaanroepen17 Anti-AI-trucs14 Gegevensparsering en extractie14 Algemene kennis13 Algemene intelligentie12 Puzzeloplossing12 Domeinspecifiek7 Instructies opvolgen1

13/13

Rang	Model	Bedrijf	API-fout-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#173	DeepSeek V3.2 none	DeepSeek	1	3.2	$0.054	0/4	9.35s
Totaal tests 4 Foute tests 4 Totale kosten $0.054 Responstijd (gem.) 9.35s
#192	Laguna M.1 none	Poolside	1	3.4	$0.009	0/4	705ms
Totaal tests 4 Foute tests 4 Totale kosten $0.009 Responstijd (gem.) 705ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
Totaal tests 4 Foute tests 4 Totale kosten $0.004 Responstijd (gem.) 534ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	1/4	584ms
Totaal tests 4 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 584ms
#135	Hy3 preview high	Tencent	2	6.4	$0.048	2/4	15.1s
Totaal tests 4 Foute tests 2 Totale kosten $0.048 Responstijd (gem.) 15.1s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.9	$0.077	2/4	2.49s
Totaal tests 4 Foute tests 2 Totale kosten $0.077 Responstijd (gem.) 2.49s
#186	Laguna M.1 medium	Poolside	1	6.5	$0.033	2/4	4.87s
Totaal tests 4 Foute tests 2 Totale kosten $0.033 Responstijd (gem.) 4.87s
#198	Laguna Xs.2 medium	Poolside	1	6.9	$0.015	2/4	2.68s
Totaal tests 4 Foute tests 2 Totale kosten $0.015 Responstijd (gem.) 2.68s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	6.4	$0.000	2/4	1.20s
Totaal tests 4 Foute tests 2 Totale kosten $0.000 Responstijd (gem.) 1.20s
#32	Inkling medium	Thinkingmachines	1	8.7	$0.391	3/4	6.49s
Totaal tests 4 Foute tests 1 Totale kosten $0.391 Responstijd (gem.) 6.49s
#76	DeepSeek V3.2 medium	DeepSeek	1	8.2	$0.078	3/4	24.2s
Totaal tests 4 Foute tests 1 Totale kosten $0.078 Responstijd (gem.) 24.2s
#153	Hy3 preview low	Tencent	1	8.3	$0.015	3/4	9.32s
Totaal tests 4 Foute tests 1 Totale kosten $0.015 Responstijd (gem.) 9.32s
#175	Qwen3.6 Plus Preview medium	Qwen	1	8.3	$0.000	3/4	11.7s
Totaal tests 4 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 11.7s

Modellen filteren

Topmodellen op API-fout-aantal

API-fout-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Anti-AI-trucs: API-fout

Modellen filteren

Topmodellen op API-fout-aantal

API-fout-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten