Ranking für Domänenspezifisch x Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

421

Am stärksten betroffenes Modell

Muse Spark 1.1 3

Fehlergründe

Falsche Antwort421 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

202/202

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#31	Gemini 3.5 Flash-Lite high	Google	2	5.3	$0.584	1/3	19.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.584 Antwortzeit (Durchschnitt) 19.5s
#34	GPT-5.2 Chat none	OpenAI	2	5.3	$0.604	1/3	17.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.604 Antwortzeit (Durchschnitt) 17.8s
#36	Inkling medium	Thinkingmachines	2	5.3	$0.391	1/3	35.6s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 35.6s
#38	GPT-5.6 Terra high	OpenAI	2	5.3	$1.055	1/3	43.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.055 Antwortzeit (Durchschnitt) 43.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	2	5.9	$0.234	1/3	88.7s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.234 Antwortzeit (Durchschnitt) 88.7s
#43	GPT-5.6 Terra medium	OpenAI	2	5.3	$0.676	1/3	23.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.676 Antwortzeit (Durchschnitt) 23.4s
#45	Claude Opus 4.8 low	Anthropic	2	5.3	$2.077	1/3	45.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $2.077 Antwortzeit (Durchschnitt) 45.5s
#46	GLM 5 medium	Z.ai	2	3.5	$0.307	0/3	0ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.307 Antwortzeit (Durchschnitt) 0ms
#50	DeepSeek V4 Pro high	DeepSeek	2	3.6	$0.200	0/3	151.5s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 151.5s
#53	GLM 5 Turbo medium	Z.ai	2	2.9	$0.323	0/3	71.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.323 Antwortzeit (Durchschnitt) 71.1s
#54	GPT-5.6 Luna medium	OpenAI	2	5.3	$0.352	1/3	17.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.352 Antwortzeit (Durchschnitt) 17.4s
#57	GPT-5.4 Nano medium	OpenAI	2	5.9	$0.138	1/3	38.2s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.138 Antwortzeit (Durchschnitt) 38.2s
#59	GPT-5.6 Terra low	OpenAI	2	5.3	$0.519	1/3	8.34s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 8.34s
#64	LongCat 2.0 medium	Meituan	2	2.9	$0.478	0/3	339.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.478 Antwortzeit (Durchschnitt) 339.9s
#65	Gemini 3 Flash Preview low	Google	2	5.3	$0.177	1/3	8.05s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.177 Antwortzeit (Durchschnitt) 8.05s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten