Ranking für Rätsellösen x Zusätzliche Formatierung

Sieh, welche KI-Modelle bei Rätsellösen am ehesten auf Zusätzliche Formatierung stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Claude Sonnet 4.6 1

Fehlergründe

Falsche Antwort201 Anweisungen nicht befolgt90 API-Fehler12 Zusätzliche Formatierung8 Zeitüberschreitung5 Keine Antwort3

Kategorien

Anti-KI-Tricks20 Programmierung18 Domänenspezifisch17 Rätsellösen8 Datenanalyse und -extraktion6 Befolgung von Anweisungen3 Kombiniert1

8/8

Rang	Modell	Unternehmen	Zusätzliche Formatierung-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#63	Claude Sonnet 4.6 none	Anthropic	1	7.7	$0.661	2/3	2.53s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.661 Antwortzeit (Durchschnitt) 2.53s
#66	Claude Opus 4.8 none	Anthropic	1	7.7	$1.166	2/3	2.74s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.166 Antwortzeit (Durchschnitt) 2.74s
#109	Mimo V2 PRO medium	Xiaomi	1	6.4	$0.333	1/3	5.08s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.333 Antwortzeit (Durchschnitt) 5.08s
#112	Claude Sonnet 5 none	Anthropic	1	6.0	$0.548	1/3	3.22s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 3.22s
#159	GPT-5.6 Luna none	OpenAI	1	5.3	$0.142	1/3	790ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.142 Antwortzeit (Durchschnitt) 790ms
#164	Inkling none	Thinkingmachines	1	5.6	$0.147	1/3	931ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.147 Antwortzeit (Durchschnitt) 931ms
#111	LongCat 2.0 none	Meituan	1	4.0	$0.044	0/3	2.74s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 2.74s
#150	DeepSeek V4 Flash none	DeepSeek	1	3.1	$0.044	0/3	23.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 23.7s

Modelle filtern

Top-Modelle nach Zusätzliche Formatierung-Anzahl

Zusätzliche Formatierung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Rätsellösen: Zusätzliche Formatierung

Modelle filtern

Top-Modelle nach Zusätzliche Formatierung-Anzahl

Zusätzliche Formatierung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten