AI BENCHY
Vergleichen Diagramme Methodik
❤️ Made by XCS
Your ad here

AI BENCHY Kategoriefehler

Werkzeugaufrufe
Falsche Antwort

Sieh, welche KI-Modelle bei Werkzeugaufrufe am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

2

Gesamtfehler

2

Am stärksten betroffenes Modell

GLM 4.7 Flash 1

Verwandte Fehlergründe

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs. Ø-Score

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten