AI BENCHY Kategoriefehler

Anti-KI-Tricks

Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Verwandte Fehlergründe

Falsche Antwort53 Anweisungen nicht befolgt12 Zusätzliche Formatierung8 Keine Antwort1 Zeitüberschreitung1

Verwandte Kategorien

Allgemeine Intelligenz32 Rätsellösen24 Anti-KI-Tricks12 Befolgung von Anweisungen9

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Korrekte Tests	Antwortzeit (Durchschnitt)
#12	Gemini 3.1 Flash Lite Preview medium	Google	1	9.0	2/3	2.53s
#19	GPT-5.3 Chat none	OpenAI	1	7.3	2/3	4.72s
#22	Gemini 3.1 Flash Lite Preview none	Google	1	6.0	1/3	1.16s
#27	GPT-5.2 medium	OpenAI	1	7.0	2/3	14.3s
#32	GPT-5 Mini medium	OpenAI	1	7.0	2/3	16.5s
#36	Mercury 2 medium	Inception	1	7.3	2/3	1.30s
#39	gpt-oss-120b medium	OpenAI	1	7.0	2/3	19.8s
#43	MiniMax M2.5 medium	Minimax	1	9.3	2/3	32.4s
#48	Qwen3 Coder Next none	Qwen	1	2.3	0/3	4.39s
#50	Qwen3 Coder Next medium	Qwen	1	1.3	0/3	15.3s
#52	GLM 4.7 Flash medium	Z.ai	1	4.0	1/3	27.1s
#53	Grok 4.1 Fast none	X AI	1	1.3	0/3	1.73s

Top-Modelle nach Anweisungen nicht befolgt-Anzahl