AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Allgemeinwissen: Keine Antwort

Allgemeinwissen
Keine Antwort

Sieh, welche KI-Modelle bei Allgemeinwissen am ehesten auf Keine Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

6

Gesamtfehler

6

Am stärksten betroffenes Modell

Claude Opus 4.8 1
Rang Modell Unternehmen Keine Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#10 Claude Opus 4.8 medium Anthropic 1 3.0 0/1 6.14s
#22 Step 3.7 Flash medium Stepfun 1 3.0 0/1 114.0s
#57 Step 3.7 Flash low Stepfun 1 3.0 0/1 124.8s
#67 MiniMax M3 medium Minimax 1 3.0 0/1 100.8s
#68 Claude Opus 4.8 none Anthropic 1 3.0 0/1 3.41s
#71 Step 3.7 Flash high Stepfun 1 3.0 0/1 149.3s

Top-Modelle nach Keine Antwort-Anzahl

Keine Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten