AI BENCHY
Advertise here

AI BENCHY Kategoriefehler

Kombiniert: Ungültiger Werkzeugaufruf

Kombiniert
Ungültiger Werkzeugaufruf

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Ungültiger Werkzeugaufruf stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

4

Gesamtfehler

19

Am stärksten betroffenes Modell

Gemini 3.5 Flash 1
Rang Modell Unternehmen Ungültiger Werkzeugaufruf-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#145 Laguna M.1 none Poolside 1 3.0 0/1 4.32s
#154 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#158 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s
#163 Granite 4.1 8B none IBM Granite 1 3.0 0/1 1.88s

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten