Ranking für Domänenspezifisch x Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

421

Am stärksten betroffenes Modell

Muse Spark 1.1 3

Fehlergründe

Falsche Antwort421 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

202/202

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#70	Claude Opus 4.8 none	Anthropic	2	5.3	$1.166	1/3	1.70s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.166 Antwortzeit (Durchschnitt) 1.70s
#71	Step 3.7 Flash low	Stepfun	2	5.3	$0.454	1/3	43.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.454 Antwortzeit (Durchschnitt) 43.3s
#77	Grok 4.3 medium	X AI	2	5.3	$0.779	1/3	181.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 181.7s
#80	DeepSeek V3.2 medium	DeepSeek	2	2.9	$0.078	0/3	24.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 24.3s
#81	Kimi K2.5 medium	Moonshot AI	2	3.5	$0.600	0/3	137.3s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.600 Antwortzeit (Durchschnitt) 137.3s
#86	DeepSeek V4 Pro none	DeepSeek	2	5.3	$0.096	1/3	3.72s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 3.72s
#90	Step 3.7 Flash high	Stepfun	2	4.1	$1.207	0/3	149.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.207 Antwortzeit (Durchschnitt) 149.6s
#94	Qwen3.6 35B A3B medium	Qwen	2	5.3	$0.746	1/3	22.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.746 Antwortzeit (Durchschnitt) 22.5s
#96	LongCat 2.0 low	Meituan	2	3.0	$0.391	0/3	86.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 86.1s
#98	GLM 5V Turbo medium	Z.ai	2	5.3	$0.457	1/3	38.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.457 Antwortzeit (Durchschnitt) 38.1s
#100	Gemma 4 26B A4B medium	Google	2	2.9	$0.089	0/3	23.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.089 Antwortzeit (Durchschnitt) 23.6s
#101	GLM 5.2 none	Z.ai	2	5.3	$0.128	1/3	4.04s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.128 Antwortzeit (Durchschnitt) 4.04s
#106	Hy3 preview medium	Tencent	2	5.3	$0.018	1/3	22.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.018 Antwortzeit (Durchschnitt) 22.3s
#110	Gemini 3.1 Flash Lite Preview low	Google	2	5.3	$0.646	1/3	2.36s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.646 Antwortzeit (Durchschnitt) 2.36s
#111	Gemini 3.1 Flash Lite low	Google	2	5.3	$0.621	1/3	1.52s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.621 Antwortzeit (Durchschnitt) 1.52s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten