Ranking für Kombiniert x Ungültiger Werkzeugaufruf

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Ungültiger Werkzeugaufruf stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Muse Spark 1.1 2

Fehlergründe

Ungültiger Werkzeugaufruf91 Falsche Antwort68 Keine Antwort29 API-Fehler26 Zeitüberschreitung5 Anweisungen nicht befolgt1 Zusätzliche Formatierung1

Kategorien

Kombiniert91 Werkzeugaufrufe9

77/77

Rang	Modell	Unternehmen	Ungültiger Werkzeugaufruf-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#27	Muse Spark 1.1 high	Meta	2	5.9	$1.694	0/2	70.3s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $1.694 Antwortzeit (Durchschnitt) 70.3s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.300 Antwortzeit (Durchschnitt) 14.4s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 584.1s
#123	Inkling low	Thinkingmachines	2	2.9	$0.187	0/2	22.7s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 22.7s
#124	Qwen3.6 Flash none	Qwen	2	3.8	$0.062	0/2	26.5s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.062 Antwortzeit (Durchschnitt) 26.5s
#150	DeepSeek V4 Flash none	DeepSeek	2	4.6	$0.044	0/2	179.6s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 179.6s
#152	Qwen3.6 27B none	Qwen	2	3.2	$0.087	0/2	83.1s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 83.1s
#169	Qwen3.5-9B none	Qwen	2	3.0	$0.021	0/2	194.0s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 194.0s
#171	North Mini Code none	Cohere	2	3.2	$0.000	0/2	96.2s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 96.2s
#173	DeepSeek V3.2 none	DeepSeek	2	4.8	$0.054	0/2	113.5s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 113.5s
#176	GLM 4.7 Flash none	Z.ai	2	3.0	$0.016	0/2	50.2s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 50.2s
#178	Ling-2.6-flash none	Inclusionai	2	3.0	$0.002	0/2	35.7s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.002 Antwortzeit (Durchschnitt) 35.7s
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.166 Antwortzeit (Durchschnitt) 802.8s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 9.28s
#2	Gemini 3.5 Flash high	Google	1	8.2	$1.976	1/2	84.1s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $1.976 Antwortzeit (Durchschnitt) 84.1s

1 2 3 4 5 6

→

Modelle filtern

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Kombiniert: Ungültiger Werkzeugaufruf

Modelle filtern

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten