AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Anti-KI-Tricks: Falsche Antwort

Anti-KI-Tricks
Falsche Antwort

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

5

Gesamtfehler

245

Am stärksten betroffenes Modell

Gemini 2.5 Flash 4
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#137 Elephant Alpha none Openrouter 1 6.6 2/4 963ms
#138 Ling-2.6-flash none Inclusionai 1 6.8 2/4 11.8s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 6.4 2/4 1.20s
#156 Hy3 preview none Tencent 1 4.8 1/4 11.1s
#161 Qwen3.5-9B medium Qwen 1 5.1 1/4 34.4s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten