Fehler-Ranking für Zusätzliche Formatierung

Sieh, bei welchen KI-Modellen Zusätzliche Formatierung besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Claude Opus 4.6 5

Kategorien

In der Kategorie Anti-KI-Tricks20 In der Kategorie Programmierung18 In der Kategorie Domänenspezifisch17 In der Kategorie Rätsellösen8 In der Kategorie Datenanalyse und -extraktion6 In der Kategorie Befolgung von Anweisungen3 In der Kategorie Kombiniert1

42/42

Rang	Modell	Unternehmen	Zusätzliche Formatierung-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#181	Grok 4.20 Multi Agent Beta medium	X AI	2	4.8	$5.599	8/18	9.69s
Gesamttests 18 Falsche Tests 10 Gesamtkosten $5.599 Antwortzeit (Durchschnitt) 9.69s
#33	Kimi K3 max	Moonshot AI	1	8.0	$3.112	16/22	122.5s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $3.112 Antwortzeit (Durchschnitt) 122.5s
#41	Claude Opus 4.8 low	Anthropic	1	7.8	$2.077	16/22	12.7s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $2.077 Antwortzeit (Durchschnitt) 12.7s
#46	DeepSeek V4 Pro high	DeepSeek	1	7.7	$0.200	10/22	79.1s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 79.1s
#47	MiniMax M3 medium	Minimax	1	7.6	$0.286	12/22	75.0s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.286 Antwortzeit (Durchschnitt) 75.0s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $1.627 Antwortzeit (Durchschnitt) 111.9s
#73	Grok 4.3 medium	X AI	1	7.1	$0.779	13/22	47.4s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 47.4s
#74	GLM 5.1 medium	Z.ai	1	7.1	$0.535	13/22	46.8s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.535 Antwortzeit (Durchschnitt) 46.8s
#75	Grok 4.20 medium	X AI	1	7.1	$0.777	12/22	29.5s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.777 Antwortzeit (Durchschnitt) 29.5s
#82	DeepSeek V4 Pro none	DeepSeek	1	6.9	$0.096	10/22	11.6s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 11.6s
#109	Mimo V2 PRO medium	Xiaomi	1	6.3	$0.333	12/21	22.2s
Gesamttests 21 Falsche Tests 9 Gesamtkosten $0.333 Antwortzeit (Durchschnitt) 22.2s
#111	LongCat 2.0 none	Meituan	1	6.3	$0.044	7/22	5.18s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 5.18s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.3	$0.043	12/21	20.1s
Gesamttests 21 Falsche Tests 9 Gesamtkosten $0.043 Antwortzeit (Durchschnitt) 20.1s
#134	Mimo V2 Omni medium	Xiaomi	1	5.9	$0.683	10/21	41.2s
Gesamttests 21 Falsche Tests 11 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 41.2s
#148	Owl Alpha none	Openrouter	1	5.6	$0.000	7/21	9.88s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 9.88s

Zusätzliche Formatierung-Fehler

Modelle filtern

Top-Modelle nach Zusätzliche Formatierung-Anzahl

Zusätzliche Formatierung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)