Ranking für Kombiniert x Ungültiger Werkzeugaufruf

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Ungültiger Werkzeugaufruf stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Qwen3.6 35B A3B 1

Fehlergründe

Ungültiger Werkzeugaufruf91 Falsche Antwort69 Keine Antwort32 API-Fehler26 Zeitüberschreitung5 Anweisungen nicht befolgt1 Zusätzliche Formatierung1

Kategorien

Kombiniert91 Werkzeugaufrufe9

77/77

Rang	Modell	Unternehmen	Ungültiger Werkzeugaufruf-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#94	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.746 Antwortzeit (Durchschnitt) 817.6s
#200	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.166 Antwortzeit (Durchschnitt) 802.8s
#62	Qwen3.5-27B medium	Qwen	1	7.3	$1.627	1/2	595.2s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $1.627 Antwortzeit (Durchschnitt) 595.2s
#105	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 584.1s
#143	North Mini Code medium	Cohere	1	2.9	$0.000	0/2	554.9s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 554.9s
#125	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.837 Antwortzeit (Durchschnitt) 512.8s
#100	Gemma 4 26B A4B medium	Google	1	6.3	$0.089	1/2	492.9s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.089 Antwortzeit (Durchschnitt) 492.9s
#72	Kimi K2.6 medium	Moonshot AI	1	6.9	$1.036	1/2	458.6s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $1.036 Antwortzeit (Durchschnitt) 458.6s
#116	Gemma 4 31B medium	Google	1	2.9	$0.107	0/2	433.1s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.107 Antwortzeit (Durchschnitt) 433.1s
#76	Qwen3.5-122B-A10B medium	Qwen	1	6.4	$1.046	1/2	313.5s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $1.046 Antwortzeit (Durchschnitt) 313.5s
#89	Qwen3.6 Flash medium	Qwen	1	6.5	$0.738	1/2	299.2s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.738 Antwortzeit (Durchschnitt) 299.2s
#11	Qwen3.7 Max medium	Qwen	1	8.7	$1.116	1/2	287.8s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $1.116 Antwortzeit (Durchschnitt) 287.8s
#120	Qwen3.5-Flash medium	Qwen	1	6.4	$0.139	1/2	266.6s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.139 Antwortzeit (Durchschnitt) 266.6s
#114	Ring-2.6-1T medium	Inclusionai	1	7.3	$0.103	1/2	257.3s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.103 Antwortzeit (Durchschnitt) 257.3s
#131	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 243.6s

1 2 3 4 5 6

→

Modelle filtern

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Kombiniert: Ungültiger Werkzeugaufruf

Modelle filtern

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten