AI BENCHY
Vergleichen Diagramme Methodik
❤️ Made by XCS
Your ad here

AI BENCHY Kategoriefehler

Befolgung von Anweisungen
Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Befolgung von Anweisungen am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

9

Gesamtfehler

9

Am stärksten betroffenes Modell

Gemini 3.1 Flash Lite Preview 1
Rang Modell Unternehmen Anweisungen nicht befolgt-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#8 Gemini 3.1 Flash Lite Preview high Google 1 9.0 1/2 70.1s
#13 Step 3.5 Flash medium Stepfun 1 9.0 1/2 4.98s
#30 Grok 4.1 Fast medium X AI 1 5.5 1/2 5.30s
#32 GPT-5 Mini medium OpenAI 1 7.5 1/2 15.7s
#34 GPT-5 Nano medium OpenAI 1 9.0 1/2 11.9s
#43 MiniMax M2.5 medium Minimax 1 8.0 1/2 4.64s
#45 Trinity Large Preview none Arcee AI 1 3.5 0/2 1.09s
#47 GPT-4o-mini none OpenAI 1 4.5 0/2 1.27s
#50 Qwen3 Coder Next medium Qwen 1 4.5 0/2 7.34s

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs. Ø-Score

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten