Modell-Ranking für Befolgung von Anweisungen

Sieh, welche KI-Modelle bei Befolgung von Anweisungen am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen.

Angezeigte Modelle

Durchschnittlicher Wert für Befolgung von Anweisungen-Score

8.5

Bestes Modell

Gemini 3 Flash Preview 10.0

Fehlergründe

Mit Fehlergrund Falsche Antwort65 Mit Fehlergrund Anweisungen nicht befolgt23 Mit Fehlergrund Zusätzliche Formatierung3 Mit Fehlergrund Keine Antwort2 Mit Fehlergrund API-Fehler1 Mit Fehlergrund Zeitüberschreitung1

220/220

Rang	Modell	Unternehmen	Befolgung von Anweisungen-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#67	Claude Sonnet 4.6 none	Anthropic	6.5	7.3	$0.661	1/2	1.96s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.661 Antwortzeit (Durchschnitt) 1.96s
#96	LongCat 2.0 low	Meituan	6.5	6.7	$0.391	1/2	6.39s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 6.39s
#102	LongCat 2.0 high	Meituan	6.5	6.6	$0.469	1/2	6.96s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 6.96s
#117	LongCat 2.0 none	Meituan	6.5	6.3	$0.044	1/2	2.82s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 2.82s
#121	Gemma 4 31B none	Google	6.5	6.2	$0.021	1/2	2.84s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 2.84s
#144	Kimi K2.6 none	Moonshot AI	6.5	5.8	$0.184	1/2	1.64s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.184 Antwortzeit (Durchschnitt) 1.64s
#145	GPT-5.4 none	OpenAI	6.5	5.8	$0.397	1/2	1.07s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.397 Antwortzeit (Durchschnitt) 1.07s
#151	GLM 5V Turbo none	Z.ai	6.5	5.6	$0.052	1/2	1.97s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 1.97s
#152	Owl Alpha medium	Openrouter	6.5	5.6	$0.000	1/2	10.2s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 10.2s
#153	Mimo V2 PRO none	Xiaomi	6.5	5.6	$0.045	1/2	2.51s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 2.51s
#156	DeepSeek V4 Flash none	DeepSeek	6.5	5.6	$0.044	1/2	17.5s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 17.5s
#161	Kimi K2.5 none	Moonshot AI	6.5	5.5	$0.127	1/2	2.67s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.127 Antwortzeit (Durchschnitt) 2.67s
#163	Mimo V2 Omni none	Xiaomi	6.5	5.5	$0.021	1/2	4.26s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 4.26s
#173	Mistral Small 4 none	Mistral	6.5	5.1	$0.022	1/2	380ms
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.022 Antwortzeit (Durchschnitt) 380ms
#176	MiMo-V2.5 none	Xiaomi	6.5	5.1	$0.025	1/2	751ms
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 751ms

Befolgung von Anweisungen-Ranking

Modelle filtern

Top-Modelle nach Befolgung von Anweisungen-Score

Befolgung von Anweisungen-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)