Ranking für Domänenspezifisch x Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

421

Am stärksten betroffenes Modell

Grok 4.5 2

Fehlergründe

Falsche Antwort421 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

202/202

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.707 Antwortzeit (Durchschnitt) 332.1s
#19	Muse Spark 1.1 medium	Meta	3	3.5	$1.357	0/3	71.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.357 Antwortzeit (Durchschnitt) 71.4s
#22	Qwen3.6 Max Preview medium	Qwen	3	2.9	$1.143	0/3	95.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.143 Antwortzeit (Durchschnitt) 95.9s
#23	Grok 4.5 low	X AI	3	3.0	$0.935	0/3	72.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.935 Antwortzeit (Durchschnitt) 72.6s
#25	Grok 4.5 medium	X AI	3	2.9	$1.928	0/3	198.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.928 Antwortzeit (Durchschnitt) 198.9s
#27	Muse Spark 1.1 low	Meta	3	2.9	$0.647	0/3	29.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.647 Antwortzeit (Durchschnitt) 29.7s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.237 Antwortzeit (Durchschnitt) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.694 Antwortzeit (Durchschnitt) 67.4s
#35	GLM 5.2 high	Z.ai	1	3.7	$0.817	0/3	74.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.817 Antwortzeit (Durchschnitt) 74.0s
#40	Qwen3.7 Plus medium	Qwen	3	3.6	$0.267	0/3	45.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.267 Antwortzeit (Durchschnitt) 45.3s
#41	Qwen3.6 Plus medium	Qwen	3	2.9	$0.405	0/3	29.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.405 Antwortzeit (Durchschnitt) 29.6s
#42	GLM 5.2 medium	Z.ai	1	4.1	$0.187	0/3	45.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 45.5s
#44	Claude Sonnet 4.6 medium	Anthropic	1	2.9	$2.057	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $2.057 Antwortzeit (Durchschnitt) 0ms
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.307 Antwortzeit (Durchschnitt) 0ms
#47	Claude Opus 4.6 medium	Anthropic	1	3.0	$3.059	0/3	83.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $3.059 Antwortzeit (Durchschnitt) 83.4s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten