AI BENCHY
Your ad here

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

15

Gesamtfehler

572

Am stärksten betroffenes Modell

GPT-4o-mini 13
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#7 GPT-5.3-Codex medium OpenAI 3 8.6 13/18 15.4s
#9 Qwen3.6 Plus Preview medium Qwen 3 8.5 13/17 13.9s
#11 Gemini 3.1 Flash Lite Preview high Google 3 8.4 12/16 68.8s
#12 Gemini 3 PRO Preview medium Google 3 8.4 14/18 9.06s
#16 GPT-5.4 medium OpenAI 3 8.2 13/18 18.6s
#18 GLM 5 Turbo medium Z.ai 3 8.1 12/18 17.7s
#19 Qwen3.5-122B-A10B medium Qwen 3 8.1 13/18 31.4s
#20 Qwen3.6 Plus medium Qwen 3 8.1 13/18 15.3s
#23 MiMo-V2-Pro medium Xiaomi 3 8.1 12/18 12.3s
#25 Grok 4.20 Beta medium X AI 3 8.0 12/18 9.81s
#27 DeepSeek V3.2 medium DeepSeek 3 8.0 12/18 46.4s
#30 Step 3.5 Flash medium Stepfun 3 7.9 11/17 26.8s
#31 GLM 5V Turbo medium Z.ai 3 7.8 11/18 15.0s
#33 GLM 5.1 medium Z.ai 3 7.8 12/18 24.1s
#35 MiMo-V2-Omni medium Xiaomi 3 7.7 11/18 16.8s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)