AI BENCHY
Advertise here

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

15

Gesamtfehler

1104

Am stärksten betroffenes Modell

Mercury 2 15
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#85 Kimi K2.5 medium Moonshot AI 5 6.7 9/20 89.0s
#102 Nemotron 3 Super medium NVIDIA 5 5.9 8/20 20.9s
#11 GPT-5.5 medium OpenAI 4 8.7 16/20 37.9s
#13 Gemini 3 Flash Preview low Google 4 8.6 16/20 5.81s
#17 GPT-5.3-Codex medium OpenAI 4 8.3 14/20 16.0s
#23 Qwen3.5 Plus 2026-02-15 medium Qwen 4 8.1 14/20 67.6s
#26 Hy3 preview low Tencent 4 7.9 15/20 24.6s
#27 Gemini 3.5 Flash minimal Google 4 7.9 14/20 1.58s
#31 GLM 5 Turbo medium Z.ai 4 7.9 13/20 22.7s
#35 Qwen3.6 35B A3B medium Qwen 4 7.8 14/20 17.3s
#36 Grok 4.3 medium X AI 4 7.8 13/20 49.2s
#45 Grok Build 0.1 medium X AI 4 7.7 13/20 42.4s
#56 GLM 5.1 medium Z.ai 4 7.4 12/20 33.5s
#58 MiMo-V2.5 medium Xiaomi 4 7.4 12/20 20.3s
#61 Step 3.5 Flash medium Stepfun 4 7.4 11/19 43.2s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)