AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Domänenspezifisch: Falsche Antwort

Domänenspezifisch
Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

3

Gesamtfehler

182

Am stärksten betroffenes Modell

Qwen3.6 Plus Preview 3
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#74 GLM 4.7 Flash none Z.ai 1 7.7 2/3 744ms
#80 MiniMax M2.7 medium Minimax 1 3.0 0/3 19.0s
#98 LFM2-24B-A2B none Liquid 1 5.9 1/3 287ms

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten