AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

15

Gesamtfehler

1204

Am stärksten betroffenes Modell

Granite 4.1 8B 13
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#26 Qwen3.6 Plus medium Qwen 5 7.9 14/21 30.7s
#27 Gemma 4 31B medium Google 2 7.8 14/21 56.5s
#28 Gemini 2.5 Flash medium Google 6 7.8 14/21 15.5s
#29 Qwen3.5-122B-A10B medium Qwen 5 7.8 14/21 42.5s
#32 Gemini 3.5 Flash minimal Google 5 7.7 14/21 1.57s
#33 Hy3 preview medium Tencent 3 7.7 14/21 16.3s
#34 Qwen3.7 Max none Qwen 7 7.7 14/21 1.30s
#35 Gemini 3 PRO Preview medium Google 3 7.6 14/21 9.05s
#37 Gemma 4 26B A4B medium Google 3 7.6 14/21 63.4s
#15 GPT-5.3-Codex medium OpenAI 4 8.4 15/21 16.2s
#17 GLM 5 medium Z.ai 3 8.3 15/21 33.5s
#18 Qwen3.7 Plus medium Qwen 5 8.2 15/21 38.9s
#20 Gemini 3.5 Flash none Google 3 8.1 15/21 9.93s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s
#16 Gemini 3 Flash Preview low Google 5 8.4 16/21 5.76s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)