AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Domänenspezifisch: Anweisungen nicht befolgt

Domänenspezifisch
Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

1

Gesamtfehler

1

Am stärksten betroffenes Modell

Grok Build 0.1 1

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten