Ranking für Befolgung von Anweisungen x Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Befolgung von Anweisungen am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Fehlergründe

Falsche Antwort61 Anweisungen nicht befolgt18 Zusätzliche Formatierung3 Keine Antwort2 API-Fehler1 Zeitüberschreitung1

Kategorien

Rätsellösen90 Allgemeine Intelligenz78 Anti-KI-Tricks33 Befolgung von Anweisungen18 Programmierung16 Werkzeugaufrufe8 Domänenspezifisch1 Kombiniert1

18/18

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#203	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/2	685ms
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 685ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	1.37s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.37s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	0/2	541ms
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 541ms

Modelle filtern