Foutenranglijst voor Ongeldige toolaanroep

Zie welke AI-modellen het vaakst tegen Ongeldige toolaanroep aanlopen, zodat je betrouwbaarheidsrisico's ziet voordat je kiest. Sorteren op: Responstijd (gem.) ↓.

Getoonde modellen

Totaal fouten

100

Meest getroffen model

GLM 4.7 Flash 2

Categorieën

In categorie Gecombineerd91 In categorie Toolaanroepen9

83/83

Rang	Model	Bedrijf	Ongeldige toolaanroep-aantal	Score	Totale kosten	Correcte tests	Responstijd (gem.)
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Totaal tests 22 Foute tests 18 Totale kosten $0.166 Responstijd (gem.) 142.6s
#137	North Mini Code medium	Cohere	1	5.9	$0.000	9/22	137.1s
Totaal tests 22 Foute tests 13 Totale kosten $0.000 Responstijd (gem.) 137.1s
#119	Qwen3.5-35B-A3B medium	Qwen	1	6.2	$0.837	11/22	112.5s
Totaal tests 22 Foute tests 11 Totale kosten $0.837 Responstijd (gem.) 112.5s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Totaal tests 22 Foute tests 9 Totale kosten $1.627 Responstijd (gem.) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	1	7.2	$1.036	12/22	110.0s
Totaal tests 22 Foute tests 10 Totale kosten $1.036 Responstijd (gem.) 110.0s
#99	Qwen3.6 27B medium	Qwen	2	6.5	$0.779	10/22	106.3s
Totaal tests 22 Foute tests 12 Totale kosten $0.779 Responstijd (gem.) 106.3s
#95	Gemma 4 26B A4B medium	Google	1	6.6	$0.089	14/22	103.8s
Totaal tests 22 Foute tests 8 Totale kosten $0.089 Responstijd (gem.) 103.8s
#77	Kimi K2.5 medium	Moonshot AI	1	7.0	$0.600	10/22	99.0s
Totaal tests 22 Foute tests 12 Totale kosten $0.600 Responstijd (gem.) 99.0s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	7.5	$0.437	14/22	89.2s
Totaal tests 22 Foute tests 8 Totale kosten $0.437 Responstijd (gem.) 89.2s
#114	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
Totaal tests 22 Foute tests 10 Totale kosten $0.139 Responstijd (gem.) 84.8s
#110	Gemma 4 31B medium	Google	1	6.3	$0.163	14/22	75.4s
Totaal tests 22 Foute tests 8 Totale kosten $0.163 Responstijd (gem.) 75.4s
#108	Ring-2.6-1T medium	Inclusionai	1	6.3	$0.103	11/22	68.7s
Totaal tests 22 Foute tests 11 Totale kosten $0.103 Responstijd (gem.) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Totaal tests 22 Foute tests 11 Totale kosten $0.078 Responstijd (gem.) 68.6s
#190	MiniMax M2.5 medium	Minimax	1	4.6	$0.340	5/22	68.3s
Totaal tests 22 Foute tests 17 Totale kosten $0.340 Responstijd (gem.) 68.3s
#86	Step 3.7 Flash high	Stepfun	1	6.9	$1.207	11/22	64.7s
Totaal tests 22 Foute tests 11 Totale kosten $1.207 Responstijd (gem.) 64.7s

1 2 3 4 5 6

→

Ongeldige toolaanroep-fouten

Modellen filteren

Topmodellen op Ongeldige toolaanroep-aantal

Ongeldige toolaanroep-aantal vs Score

Topmodellen op Responstijd (gem.)