Ranking für Kombiniert x Ungültiger Werkzeugaufruf

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Ungültiger Werkzeugaufruf stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Laguna M.1 1

Fehlergründe

Ungültiger Werkzeugaufruf91 Falsche Antwort68 Keine Antwort29 API-Fehler26 Zeitüberschreitung5 Anweisungen nicht befolgt1 Zusätzliche Formatierung1

Kategorien

Kombiniert91 Werkzeugaufrufe9

77/77

Rang	Modell	Unternehmen	Ungültiger Werkzeugaufruf-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#192	Laguna M.1 none	Poolside	1	1.5	$0.009	0/1	4.32s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 4.32s
#197	Grok 4.20 none	X AI	1	1.5	$0.057	0/1	6.04s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 6.04s
#191	Grok 4.20 Beta none	X AI	1	1.5	$0.087	0/1	6.48s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 6.48s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.142 Antwortzeit (Durchschnitt) 6.68s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.349 Antwortzeit (Durchschnitt) 7.02s
#78	Mercury 2 medium	Inception	1	6.7	$0.093	1/2	7.84s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 7.84s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 9.28s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 9.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 10.4s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.249 Antwortzeit (Durchschnitt) 13.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $1.055 Antwortzeit (Durchschnitt) 13.7s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.300 Antwortzeit (Durchschnitt) 14.4s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.457 Antwortzeit (Durchschnitt) 15.1s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.2	$0.115	1/2	16.6s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.115 Antwortzeit (Durchschnitt) 16.6s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.2	$0.117	1/2	18.5s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.117 Antwortzeit (Durchschnitt) 18.5s

1 2 3 4 5 6

→

Modelle filtern

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Kombiniert: Ungültiger Werkzeugaufruf

Modelle filtern

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten