AI BENCHY
Advertise here

AI BENCHY Kategoriefehler

Rätsellösen: Anweisungen nicht befolgt

Rätsellösen
Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

15

Gesamtfehler

78

Am stärksten betroffenes Modell

Gemini 3.1 Flash Lite 2
Rang Modell Unternehmen Anweisungen nicht befolgt-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#45 GPT-5.4 Mini medium OpenAI 1 7.8 2/3 4.37s
#51 Mimo V2 PRO medium Xiaomi 1 6.4 1/3 5.08s
#54 GPT-5 Mini medium OpenAI 1 5.6 1/3 15.2s
#60 Kimi K2.6 medium Moonshot AI 1 6.0 1/3 25.1s
#62 Step 3.5 Flash medium Stepfun 1 5.3 1/3 7.22s
#70 GPT-5.4 Nano medium OpenAI 1 4.1 0/3 3.79s
#72 DeepSeek V3.2 medium DeepSeek 1 7.0 1/3 37.7s
#75 Ring-2.6-1T medium Inclusionai 1 5.9 1/3 20.7s
#76 Kimi K2.5 medium Moonshot AI 1 5.3 1/3 43.2s
#79 Hunter Alpha medium OpenRouter 1 6.1 1/3 5.35s
#80 Mimo V2 Omni medium Xiaomi 1 5.9 1/3 2.38s
#81 Mercury 2 medium Inception 1 5.4 1/3 949ms
#84 Grok 4.20 Multi Agent Beta medium X AI 1 6.7 1/3 5.19s
#85 Gemma 4 31B none Google 1 6.5 1/3 4.23s
#86 Grok 4.1 Fast medium X AI 1 5.3 1/3 7.40s

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten