AI BENCHY
Advertise here

AI BENCHY Kategoriefehler

Rätsellösen: Falsche Antwort

Rätsellösen
Falsche Antwort

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

15

Gesamtfehler

147

Am stärksten betroffenes Modell

Qwen3.5-Flash 3
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#48 Gemini 3 Flash Preview none Google 1 7.7 2/3 1.05s
#54 GPT-5 Mini medium OpenAI 1 5.6 1/3 15.2s
#55 GLM 5.1 medium Z.ai 1 8.2 2/3 31.6s
#59 GLM 5V Turbo medium Z.ai 1 7.7 2/3 10.2s
#60 Kimi K2.6 medium Moonshot AI 1 6.0 1/3 25.1s
#62 Step 3.5 Flash medium Stepfun 1 5.3 1/3 7.22s
#64 MiMo-V2-Flash medium Xiaomi 1 7.7 2/3 3.87s
#65 Grok 4.20 medium X AI 1 7.7 2/3 6.22s
#67 MiniMax M3 medium Minimax 1 7.9 2/3 49.9s
#69 Claude Opus 4.6 medium Anthropic 1 7.7 2/3 4.71s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 1/3 37.7s
#73 Seed-2.0-Mini medium Bytedance Seed 1 8.2 2/3 31.8s
#75 Ring-2.6-1T medium Inclusionai 1 5.9 1/3 20.7s
#76 Kimi K2.5 medium Moonshot AI 1 5.3 1/3 43.2s
#78 Qwen3.6 27B medium Qwen 1 7.7 2/3 61.1s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten