AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

15

Gesamtfehler

1204

Am stärksten betroffenes Modell

Mistral Small 4 15
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 8 7.6 13/21 46.4s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#96 Ring-2.6-1T none Inclusionai 5 6.2 9/21 55.1s
#27 Gemma 4 31B medium Google 2 7.8 14/21 56.5s
#82 Hy3 preview high Tencent 3 6.6 11/21 56.6s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s
#78 Qwen3.6 27B medium Qwen 6 6.8 10/21 59.7s
#75 Ring-2.6-1T medium Inclusionai 6 6.9 11/21 61.3s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#37 Gemma 4 26B A4B medium Google 3 7.6 14/21 63.4s
#71 Step 3.7 Flash high Stepfun 6 7.0 11/21 64.5s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)