Fehler-Ranking für Ungültiger Werkzeugaufruf

Sieh, bei welchen KI-Modellen Ungültiger Werkzeugaufruf besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

100

Am stärksten betroffenes Modell

GLM 4.7 Flash 2

Kategorien

In der Kategorie Kombiniert91 In der Kategorie Werkzeugaufrufe9

83/83

Rang	Modell	Unternehmen	Ungültiger Werkzeugaufruf-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.166 Antwortzeit (Durchschnitt) 142.6s
#137	North Mini Code medium	Cohere	1	5.9	$0.000	9/22	137.1s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 137.1s
#119	Qwen3.5-35B-A3B medium	Qwen	1	6.2	$0.837	11/22	112.5s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.837 Antwortzeit (Durchschnitt) 112.5s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $1.627 Antwortzeit (Durchschnitt) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	1	7.2	$1.036	12/22	110.0s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $1.036 Antwortzeit (Durchschnitt) 110.0s
#99	Qwen3.6 27B medium	Qwen	2	6.5	$0.779	10/22	106.3s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 106.3s
#95	Gemma 4 26B A4B medium	Google	1	6.6	$0.089	14/22	103.8s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.089 Antwortzeit (Durchschnitt) 103.8s
#77	Kimi K2.5 medium	Moonshot AI	1	7.0	$0.600	10/22	99.0s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.600 Antwortzeit (Durchschnitt) 99.0s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	7.5	$0.437	14/22	89.2s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.437 Antwortzeit (Durchschnitt) 89.2s
#114	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.139 Antwortzeit (Durchschnitt) 84.8s
#110	Gemma 4 31B medium	Google	1	6.3	$0.163	14/22	75.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 75.4s
#108	Ring-2.6-1T medium	Inclusionai	1	6.3	$0.103	11/22	68.7s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.103 Antwortzeit (Durchschnitt) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 68.6s
#190	MiniMax M2.5 medium	Minimax	1	4.6	$0.340	5/22	68.3s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.340 Antwortzeit (Durchschnitt) 68.3s
#86	Step 3.7 Flash high	Stepfun	1	6.9	$1.207	11/22	64.7s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $1.207 Antwortzeit (Durchschnitt) 64.7s

1 2 3 4 5 6

→

Ungültiger Werkzeugaufruf-Fehler

Modelle filtern

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)