Ranking für Domänenspezifisch x Zusätzliche Formatierung

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Zusätzliche Formatierung stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Grok Build 0.1 1

Fehlergründe

Falsche Antwort412 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Anti-KI-Tricks20 Programmierung18 Domänenspezifisch17 Rätsellösen8 Datenanalyse und -extraktion6 Befolgung von Anweisungen3 Kombiniert1

13/13

Rang	Modell	Unternehmen	Zusätzliche Formatierung-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#48	Grok Build 0.1 medium	X AI	1	5.3	$1.097	1/3	158.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.097 Antwortzeit (Durchschnitt) 158.0s
#75	Grok 4.20 medium	X AI	1	5.3	$0.777	1/3	27.0s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.777 Antwortzeit (Durchschnitt) 27.0s
#84	MiMo-V2.5-Pro medium	Xiaomi	2	5.3	$0.187	1/3	37.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 37.9s
#101	MiMo-V2.5 medium	Xiaomi	1	5.3	$0.082	1/3	34.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.082 Antwortzeit (Durchschnitt) 34.5s
#40	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $2.057 Antwortzeit (Durchschnitt) 0ms
#43	Claude Opus 4.6 medium	Anthropic	2	3.0	$3.059	0/3	83.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $3.059 Antwortzeit (Durchschnitt) 83.4s
#46	DeepSeek V4 Pro high	DeepSeek	1	3.6	$0.200	0/3	151.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 151.5s
#134	Mimo V2 Omni medium	Xiaomi	1	3.0	$0.683	0/3	47.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 47.9s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	2	2.9	$0.077	0/3	7.47s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.077 Antwortzeit (Durchschnitt) 7.47s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	2	2.9	$0.041	0/3	4.99s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 4.99s
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	2.9	$5.599	0/3	24.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $5.599 Antwortzeit (Durchschnitt) 24.7s
#184	Hunter Alpha medium	OpenRouter	1	3.0	$0.000	0/3	10.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 10.5s
#197	Grok 4.20 none	X AI	1	3.0	$0.057	0/3	687ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 687ms

Modelle filtern

Top-Modelle nach Zusätzliche Formatierung-Anzahl

Zusätzliche Formatierung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Zusätzliche Formatierung

Modelle filtern

Top-Modelle nach Zusätzliche Formatierung-Anzahl

Zusätzliche Formatierung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten