Ranking für Befolgung von Anweisungen x Falsche Antwort

Sieh, welche KI-Modelle bei Befolgung von Anweisungen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

LongCat 2.0 1

Fehlergründe

Falsche Antwort61 Anweisungen nicht befolgt18 Zusätzliche Formatierung3 Keine Antwort2 API-Fehler1 Zeitüberschreitung1

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

61/61

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#159	GPT-5.6 Luna none	OpenAI	1	7.1	$0.142	1/2	1.23s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.142 Antwortzeit (Durchschnitt) 1.23s
#160	Laguna XS 2.1 none	Poolside	1	3.8	$0.008	0/2	364ms
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 364ms
#161	Qwen3.6 35B A3B none	Qwen	1	6.2	$0.061	1/2	1.86s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.061 Antwortzeit (Durchschnitt) 1.86s
#162	Ling-2.6-1T none	Inclusionai	1	6.4	$0.016	1/2	5.36s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 5.36s
#164	Inkling none	Thinkingmachines	1	6.3	$0.147	1/2	1.72s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.147 Antwortzeit (Durchschnitt) 1.72s
#165	Mistral Small 4 none	Mistral	1	6.5	$0.022	1/2	380ms
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.022 Antwortzeit (Durchschnitt) 380ms
#166	Qwen3 Coder Next none	Qwen	1	6.3	$0.025	1/2	7.78s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 7.78s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.38s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 1.38s
#168	MiMo-V2.5 none	Xiaomi	1	6.5	$0.025	1/2	751ms
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 751ms
#169	Qwen3.5-9B none	Qwen	1	6.5	$0.021	1/2	514ms
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 514ms
#170	GLM 5 Turbo none	Z.ai	1	6.5	$0.047	1/2	2.13s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 2.13s
#171	North Mini Code none	Cohere	1	6.5	$0.000	1/2	30.7s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 30.7s
#172	MiniMax M2.7 medium	Minimax	1	3.8	$0.163	0/2	12.8s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 12.8s
#174	GPT-4o-mini none	OpenAI	1	6.3	$0.010	1/2	1.11s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 1.11s
#176	GLM 4.7 Flash none	Z.ai	1	6.5	$0.016	1/2	888ms
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 888ms

←

1 2 3 4 5

→

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Befolgung von Anweisungen: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten