Ranking für Rätsellösen x Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Mistral Small 4 1

Fehlergründe

Falsche Antwort201 Anweisungen nicht befolgt90 API-Fehler12 Zusätzliche Formatierung8 Zeitüberschreitung5 Keine Antwort3

Kategorien

Rätsellösen90 Allgemeine Intelligenz78 Anti-KI-Tricks33 Befolgung von Anweisungen18 Programmierung16 Werkzeugaufrufe8 Domänenspezifisch1 Kombiniert1

86/86

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#165	Mistral Small 4 none	Mistral	1	3.1	$0.022	0/3	399ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.022 Antwortzeit (Durchschnitt) 399ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/3	532ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 532ms
#201	Granite 4.1 8B none	IBM Granite	1	3.2	$0.007	0/3	608ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 608ms
#169	Qwen3.5-9B none	Qwen	1	3.2	$0.021	0/3	621ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 621ms
#122	Gemini 3.1 Flash Lite none	Google	1	6.3	$0.046	1/3	720ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.046 Antwortzeit (Durchschnitt) 720ms
#156	Gemma 4 26B A4B none	Google	1	6.2	$0.015	1/3	744ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 744ms
#193	Elephant Alpha none	Openrouter	1	4.2	$0.000	0/3	807ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 807ms
#136	GPT-5.4 Mini none	OpenAI	1	5.4	$0.095	1/3	836ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 836ms
#195	Elephant Alpha medium	Openrouter	1	5.3	$0.000	1/3	868ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 868ms
#78	Mercury 2 medium	Inception	1	5.4	$0.093	1/3	949ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 949ms
#142	Qwen3.5-122B-A10B none	Qwen	1	3.8	$0.247	0/3	1.00s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.247 Antwortzeit (Durchschnitt) 1.00s
#129	Nemotron 3 Ultra none	NVIDIA	1	5.9	$0.095	1/3	1.06s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 1.06s
#161	Qwen3.6 35B A3B none	Qwen	2	3.2	$0.061	0/3	1.07s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.061 Antwortzeit (Durchschnitt) 1.07s
#176	GLM 4.7 Flash none	Z.ai	1	6.4	$0.016	1/3	1.20s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 1.20s
#174	GPT-4o-mini none	OpenAI	1	3.5	$0.010	0/3	1.21s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 1.21s

1 2 3 4 5 6

→

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Rätsellösen: Anweisungen nicht befolgt

Modelle filtern

Top-Modelle nach Anweisungen nicht befolgt-Anzahl

Anweisungen nicht befolgt-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten