Ranglijst voor Toolaanroepen x API-fout

Zie welke AI-modellen op Toolaanroepen het meest kans hebben op API-fout, zodat je zwakke punten sneller ziet. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

Meest getroffen model

Hy3 preview 1

Foutredenen

API-fout17 Ongeldige toolaanroep9 Instructies niet gevolgd8 Verkeerd antwoord3 Geen antwoord2

Categorieën

Programmeren45 Gecombineerd26 Toolaanroepen17 Anti-AI-trucs14 Gegevensparsering en extractie14 Algemene kennis13 Algemene intelligentie12 Puzzeloplossing12 Domeinspecifiek7 Instructies opvolgen1

17/17

Rang	Model	Bedrijf	API-fout-aantal	Categoriescore	Totale kosten	Correcte tests	Responstijd (gem.)
#153	Hy3 preview low	Tencent	1	2.8	$0.015	0/1	17.8s
Totaal tests 1 Foute tests 1 Totale kosten $0.015 Responstijd (gem.) 17.8s
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $3.112 Responstijd (gem.) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.751	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.751 Responstijd (gem.) 0ms
#74	GLM 5.1 medium	Z.ai	1	3.0	$0.535	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.535 Responstijd (gem.) 0ms
#79	Gemini 3.5 Flash none	Google	1	3.0	$1.079	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $1.079 Responstijd (gem.) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.746 Responstijd (gem.) 0ms
#110	Gemma 4 31B medium	Google	1	3.0	$0.163	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.163 Responstijd (gem.) 0ms
#115	Gemma 4 31B none	Google	1	3.0	$0.035	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.035 Responstijd (gem.) 0ms
#161	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.061	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.061 Responstijd (gem.) 0ms
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.026 Responstijd (gem.) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	3.0	$5.599	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $5.599 Responstijd (gem.) 0ms
#202	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.547 Responstijd (gem.) 0ms
#206	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.010 Responstijd (gem.) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
Totaal tests 1 Foute tests 1 Totale kosten $0.000 Responstijd (gem.) 0ms

Modellen filteren

Topmodellen op API-fout-aantal

API-fout-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten

Toolaanroepen: API-fout

Modellen filteren

Topmodellen op API-fout-aantal

API-fout-aantal vs Score

Topmodellen op Responstijd (gem.)

Topmodellen op Geschatte verspilde kosten