AI BENCHY
Advertise here

AI BENCHY Fehler

Falsche Antwort-Fehler

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↑.

Angezeigte Modelle

15

Gesamtfehler

1204

Am stärksten betroffenes Modell

Granite 4.1 8B 13
Rang Modell Unternehmen Falsche Antwort-Anzahl Punktzahl Korrekte Tests Antwortzeit (Durchschnitt)
#73 Seed-2.0-Mini medium Bytedance Seed 4 6.9 11/21 80.2s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#70 GPT-5.4 Nano medium OpenAI 8 7.0 11/21 12.0s
#71 Step 3.7 Flash high Stepfun 6 7.0 11/21 64.5s
#68 Claude Opus 4.8 none Anthropic 4 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 3 7.0 12/21 25.9s
#67 MiniMax M3 medium Minimax 3 7.1 11/21 68.2s
#66 Qwen3.5-35B-A3B medium Qwen 2 7.1 11/21 72.6s
#65 Grok 4.20 medium X AI 6 7.1 12/21 27.7s
#64 MiMo-V2-Flash medium Xiaomi 5 7.2 12/21 20.1s
#63 GPT-5.3 Chat none OpenAI 7 7.2 12/21 6.34s
#62 Step 3.5 Flash medium Stepfun 4 7.2 11/20 72.5s
#61 Gemini 3.1 Flash Lite low Google 9 7.2 12/21 1.89s
#60 Kimi K2.6 medium Moonshot AI 3 7.2 12/21 71.7s
#59 GLM 5V Turbo medium Z.ai 7 7.2 11/21 23.1s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)