Ranking für Rätsellösen x Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Gemini 3.1 Flash Lite 2

Fehlergründe

Falsche Antwort201 Anweisungen nicht befolgt90 API-Fehler12 Zusätzliche Formatierung8 Zeitüberschreitung5 Keine Antwort3

Kategorien

Rätsellösen90 Allgemeine Intelligenz78 Anti-KI-Tricks33 Befolgung von Anweisungen18 Programmierung16 Werkzeugaufrufe8 Domänenspezifisch1 Kombiniert1

86/86

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#167	Mistral Small 4 medium	Mistral	1	3.4	$0.096	0/3	2.17s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 2.17s
#168	MiMo-V2.5 none	Xiaomi	1	5.4	$0.025	1/3	2.13s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 2.13s
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 621ms
#170	GLM 5 Turbo none	Z.ai	1	5.5	$0.047	1/3	2.65s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 2.65s
#172	MiniMax M2.7 medium	Minimax	1	5.9	$0.163	1/3	24.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 24.9s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 1.21s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 1.20s
#177	Nemotron 3 Super none	NVIDIA	1	5.5	$0.008	1/3	2.36s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 2.36s
#178	Ling-2.6-flash none	Inclusionai	1	2.9	$0.002	0/3	6.51s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.002 Antwortzeit (Durchschnitt) 6.51s
#179	Ring-2.6-1T none	Inclusionai	1	7.7	$0.026	2/3	31.5s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 31.5s
#180	GPT-5.4 Nano none	OpenAI	1	5.4	$0.041	1/3	1.25s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 1.25s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	6.7	$5.599	1/3	5.19s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $5.599 Antwortzeit (Durchschnitt) 5.19s
#183	Trinity Large Preview none	Arcee AI	1	3.6	$0.008	0/3	1.97s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.97s
#184	Hunter Alpha medium	OpenRouter	1	6.1	$0.000	1/3	5.35s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 5.35s
#185	Grok 4.1 Fast medium	X AI	1	5.3	$0.069	1/3	7.40s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.069 Antwortzeit (Durchschnitt) 7.40s

←

1 2 3 4 5 6

→

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Rätsellösen: Anweisungen nicht befolgt

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten