Ranking für Werkzeugaufrufe x Anweisungen nicht befolgt

Sieh, welche KI-Modelle bei Werkzeugaufrufe am ehesten auf Anweisungen nicht befolgt stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Fehlergründe

API-Fehler17 Ungültiger Werkzeugaufruf9 Anweisungen nicht befolgt8 Falsche Antwort3 Keine Antwort2

Kategorien

Rätsellösen90 Allgemeine Intelligenz78 Anti-KI-Tricks33 Befolgung von Anweisungen18 Programmierung16 Werkzeugaufrufe8 Domänenspezifisch1 Kombiniert1

8/8

Rang	Modell	Unternehmen	Anweisungen nicht befolgt-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#56	GPT-5.4 Mini medium	OpenAI	1	4.7	$0.756	0/1	9.62s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.756 Antwortzeit (Durchschnitt) 9.62s
#75	Grok 4.20 medium	X AI	1	3.0	$0.777	0/1	13.7s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.777 Antwortzeit (Durchschnitt) 13.7s
#123	Inkling low	Thinkingmachines	1	3.0	$0.187	0/1	2.57s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 2.57s
#131	Grok 4.20 Beta medium	X AI	1	3.0	$0.750	0/1	12.4s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.750 Antwortzeit (Durchschnitt) 12.4s
#136	GPT-5.4 Mini none	OpenAI	1	3.0	$0.095	0/1	2.32s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 2.32s
#164	Inkling none	Thinkingmachines	1	3.0	$0.147	0/1	2.50s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.147 Antwortzeit (Durchschnitt) 2.50s
#172	MiniMax M2.7 medium	Minimax	1	4.7	$0.163	0/1	12.0s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 12.0s
#177	Nemotron 3 Super none	NVIDIA	1	4.7	$0.008	0/1	16.0s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 16.0s

Modelle filtern