Ranking für Programmierung x Zusätzliche Formatierung

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Zusätzliche Formatierung stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

MiniMax M3 1

Fehlergründe

Falsche Antwort230 API-Fehler43 Zeitüberschreitung23 Keine Antwort18 Anweisungen nicht befolgt16 Zusätzliche Formatierung12

Kategorien

Anti-KI-Tricks20 Domänenspezifisch13 Programmierung12 Rätsellösen6 Datenanalyse und -extraktion4 Befolgung von Anweisungen3 Kombiniert1

12/12

Rang	Modell	Unternehmen	Zusätzliche Formatierung-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#51	MiniMax M3 medium	Minimax	1	6.1	$0.131	1/3	144.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.131 Antwortzeit (Durchschnitt) 144.7s
#76	GLM 5.1 medium	Z.ai	1	4.6	$0.288	0/3	109.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.288 Antwortzeit (Durchschnitt) 109.6s
#53	Grok Build 0.1 medium	X AI	1	5.7	$0.927	1/3	108.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.927 Antwortzeit (Durchschnitt) 108.5s
#63	MiMo-V2.5-Pro medium	Xiaomi	1	6.2	$0.106	1/3	92.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 92.1s
#46	Grok 4.3 medium	X AI	1	5.9	$0.614	1/3	41.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.614 Antwortzeit (Durchschnitt) 41.2s
#126	Owl Alpha none	Openrouter	1	5.6	$0.000	1/3	36.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 36.9s
#38	Claude Sonnet 4.6 medium	Anthropic	1	5.7	$1.418	1/3	33.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.418 Antwortzeit (Durchschnitt) 33.3s
#48	Claude Opus 4.6 medium	Anthropic	1	5.7	$2.053	1/3	30.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $2.053 Antwortzeit (Durchschnitt) 30.1s
#45	Claude Opus 4.8 low	Anthropic	1	6.6	$1.270	1/3	7.58s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.270 Antwortzeit (Durchschnitt) 7.58s
#67	Claude Sonnet 4.6 none	Anthropic	1	5.5	$0.316	1/3	5.19s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.316 Antwortzeit (Durchschnitt) 5.19s
#130	Mimo V2 Omni none	Xiaomi	1	4.4	$0.021	0/3	2.75s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 2.75s
#182	Granite 4.1 8B none	IBM Granite	1	4.5	$0.003	0/3	775ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 775ms

Modelle filtern

Top-Modelle nach Zusätzliche Formatierung-Anzahl

Zusätzliche Formatierung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Programmierung: Zusätzliche Formatierung

Modelle filtern

Top-Modelle nach Zusätzliche Formatierung-Anzahl

Zusätzliche Formatierung-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten