Ranglijst voor Puzzeloplossing x API-fout

Zie welke AI-modellen op Puzzeloplossing het meest kans hebben op API-fout, zodat je zwakke punten sneller ziet. Sorteren op: Correcte tests ↓.

Getoonde modellen

Totaal fouten

Meest getroffen model

Hy3 preview 1

Foutredenen

Verkeerd antwoord201 Instructies niet gevolgd90 API-fout12 Extra opmaak8 Time-out5 Geen antwoord3

Categorieën

Programmeren45 Gecombineerd26 Toolaanroepen17 Anti-AI-trucs14 Gegevensparsering en extractie14 Algemene kennis13 Algemene intelligentie12 Puzzeloplossing12 Domeinspecifiek7 Instructies opvolgen1

11/11

Rang	Model	Bedrijf	API-fout-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#135	Hy3 preview high	Tencent	1	7.7	$0.048	2/3	27.9s
Totaal tests 3 Foute tests 1 Totale kosten $0.048 Responstijd (gem.) 27.9s
#173	DeepSeek V3.2 none	DeepSeek	1	7.6	$0.054	2/3	6.91s
Totaal tests 3 Foute tests 1 Totale kosten $0.054 Responstijd (gem.) 6.91s
#153	Hy3 preview low	Tencent	1	5.3	$0.015	1/3	7.51s
Totaal tests 3 Foute tests 2 Totale kosten $0.015 Responstijd (gem.) 7.51s
#175	Qwen3.6 Plus Preview medium	Qwen	2	5.3	$0.000	1/3	7.52s
Totaal tests 3 Foute tests 2 Totale kosten $0.000 Responstijd (gem.) 7.52s
#186	Laguna M.1 medium	Poolside	1	5.3	$0.033	1/3	10.2s
Totaal tests 3 Foute tests 2 Totale kosten $0.033 Responstijd (gem.) 10.2s
#198	Laguna Xs.2 medium	Poolside	1	5.3	$0.015	1/3	1.93s
Totaal tests 3 Foute tests 2 Totale kosten $0.015 Responstijd (gem.) 1.93s
#205	Laguna Xs.2 none	Poolside	1	5.3	$0.004	1/3	650ms
Totaal tests 3 Foute tests 2 Totale kosten $0.004 Responstijd (gem.) 650ms
#192	Laguna M.1 none	Poolside	1	3.0	$0.009	0/3	891ms
Totaal tests 3 Foute tests 3 Totale kosten $0.009 Responstijd (gem.) 891ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	2.9	$0.000	0/3	1.40s
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 1.40s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
Totaal tests 3 Foute tests 3 Totale kosten $0.000 Responstijd (gem.) 532ms
#210	LFM2-24B-A2B none	Liquid	1	3.8	$0.001	0/3	1.78s
Totaal tests 3 Foute tests 3 Totale kosten $0.001 Responstijd (gem.) 1.78s

Modellen filteren

Topmodellen op API-fout-aantal

API-fout-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Puzzeloplossing: API-fout

Modellen filteren

Topmodellen op API-fout-aantal

API-fout-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten