AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

15

Gesamtfehler

1204

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#124 Kimi K2.6 none Moonshot AI 11 5.5 7/21 13.3s
#125 GPT-5.4 none OpenAI 13 5.5 7/21 1.42s
#127 Grok 4.20 none X AI 10 5.4 6/18 1.11s
#128 Qwen3.6 Flash none Qwen 12 5.4 7/21 1.60s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#126 gpt-oss-120b none OpenAI 8 5.4 6/19 21.6s
#122 GLM 4.7 Flash none Z.ai 13 5.5 6/21 2.86s
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#131 Qwen3.5-122B-A10B none Qwen 13 5.3 6/21 3.41s
#133 DeepSeek V3.2 none DeepSeek 7 5.2 6/21 13.8s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#135 Kimi K2.5 none Moonshot AI 15 5.2 6/21 13.2s
#136 Elephant Alpha medium Openrouter 9 5.1 6/21 1.27s
#138 Ling-2.6-flash none Inclusionai 9 5.0 6/21 9.34s
#146 Laguna Xs.2 none Poolside 8 4.8 5/19 806ms

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)