AI BENCHY
Vergleichen Diagramme Methodik
❤️ Made by XCS
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Kombiniert
Ungültiger Werkzeugaufruf

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Ungültiger Werkzeugaufruf stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

4

Gesamtfehler

4

Am stärksten betroffenes Modell

DeepSeek V3.2 1

Verwandte Kategorien

Rang Modell Unternehmen Ungültiger Werkzeugaufruf-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#33 DeepSeek V3.2 none DeepSeek 1 8.0 0/1 115.9s
#43 MiniMax M2.5 medium Minimax 1 10.0 0/1 60.4s
#49 GLM 4.7 Flash none Z.ai 1 10.0 0/1 3.22s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/1 65.6s

Top-Modelle nach Ungültiger Werkzeugaufruf-Anzahl

Ungültiger Werkzeugaufruf-Anzahl vs. Ø-Score

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten