Modell-Ranking für Befolgung von Anweisungen

Sieh, welche KI-Modelle bei Befolgung von Anweisungen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Metrik ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Befolgung von Anweisungen-Score

8.5

Bestes Modell

Grok 4.1 Fast 3.0

Fehlergründe

Mit Fehlergrund Falsche Antwort65 Mit Fehlergrund Anweisungen nicht befolgt23 Mit Fehlergrund Zusätzliche Formatierung3 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund API-Fehler1 Mit Fehlergrund Zeitüberschreitung1

220/220

Rang	Modell	Unternehmen	Befolgung von Anweisungen-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#19	Muse Spark 1.1 medium	Meta	6.5	8.6	$1.357	1/2	6.31s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $1.357 Antwortzeit (Durchschnitt) 6.31s
#64	LongCat 2.0 medium	Meituan	6.5	7.4	$0.478	1/2	7.38s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.478 Antwortzeit (Durchschnitt) 7.38s
#67	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.661 Antwortzeit (Durchschnitt) 1.96s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 6.39s
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 6.96s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 2.82s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 2.84s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.184 Antwortzeit (Durchschnitt) 1.64s
#145	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.397 Antwortzeit (Durchschnitt) 1.07s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 1.97s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 10.2s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 2.51s
#156	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.044	1/2	17.5s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 17.5s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.127 Antwortzeit (Durchschnitt) 2.67s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 4.26s

Befolgung von Anweisungen-Ranking

Modelle filtern

Top-Modelle nach Befolgung von Anweisungen-Score

Befolgung von Anweisungen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)