Fehler-Ranking für Ungültiger Werkzeugaufruf

Sieh, bei welchen KI-Modellen Ungültiger Werkzeugaufruf besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

100

Am stärksten betroffenes Modell

Gemini 3.5 Flash 1

Kategorien

In der Kategorie Kombiniert91 In der Kategorie Werkzeugaufrufe9

83/83

Rang	Modell	Unternehmen	Ungültiger Werkzeugaufruf-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Gesamttests 22 Falsche Tests 2 Gesamtkosten $1.976 Antwortzeit (Durchschnitt) 15.1s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.116 Antwortzeit (Durchschnitt) 40.6s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $0.433 Antwortzeit (Durchschnitt) 5.55s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.357 Antwortzeit (Durchschnitt) 25.0s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
Gesamttests 22 Falsche Tests 5 Gesamtkosten $3.478 Antwortzeit (Durchschnitt) 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.922 Antwortzeit (Durchschnitt) 12.5s
#24	Muse Spark 1.1 low	Meta	1	8.3	$0.647	13/22	11.5s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.647 Antwortzeit (Durchschnitt) 11.5s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.515 Antwortzeit (Durchschnitt) 26.4s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 16.2s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.055 Antwortzeit (Durchschnitt) 11.3s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.267 Antwortzeit (Durchschnitt) 51.5s
#45	DeepSeek V4 Flash high	DeepSeek	1	7.7	$0.042	13/22	49.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.042 Antwortzeit (Durchschnitt) 49.7s
#51	Nemotron 3 Ultra medium	NVIDIA	1	7.5	$0.774	13/22	32.2s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.774 Antwortzeit (Durchschnitt) 32.2s
#55	GPT-5.6 Terra low	OpenAI	1	7.5	$0.519	13/22	5.31s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 5.31s
#56	GPT-5.4 Mini medium	OpenAI	1	7.5	$0.756	12/22	25.9s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.756 Antwortzeit (Durchschnitt) 25.9s

1 2 3 4 5 6

→

Ungültiger Werkzeugaufruf-Fehler

Modelle filtern

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)