Ranking für Domänenspezifisch x Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

412

Am stärksten betroffenes Modell

Muse Spark 1.1 3

Fehlergründe

Falsche Antwort412 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

198/198

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#70	Qwen3.5 Plus 2026-04-20 medium	Qwen	3	2.9	$0.317	0/3	53.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.317 Antwortzeit (Durchschnitt) 53.1s
#71	Qwen3.7 Plus none	Qwen	3	3.0	$0.106	0/3	868ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 868ms
#72	Qwen3.5-122B-A10B medium	Qwen	3	2.9	$1.046	0/3	63.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.046 Antwortzeit (Durchschnitt) 63.4s
#78	Mercury 2 medium	Inception	3	2.9	$0.093	0/3	6.48s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 6.48s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	3	2.9	$0.467	0/3	29.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.467 Antwortzeit (Durchschnitt) 29.0s
#83	GPT-5.6 Sol none	OpenAI	3	3.6	$0.524	0/3	1.43s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.524 Antwortzeit (Durchschnitt) 1.43s
#85	Qwen3.6 Flash medium	Qwen	3	3.5	$0.738	0/3	14.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.738 Antwortzeit (Durchschnitt) 14.6s
#87	GPT-5.5 none	OpenAI	3	2.9	$0.544	0/3	1.31s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.544 Antwortzeit (Durchschnitt) 1.31s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	3	3.6	$0.476	0/3	21.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.476 Antwortzeit (Durchschnitt) 21.6s
#99	Qwen3.6 27B medium	Qwen	3	2.9	$0.779	0/3	73.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 73.4s
#102	Laguna XS 2.1 medium	Poolside	3	2.9	$0.068	0/3	65.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 65.7s
#103	Qwen3.5-27B none	Qwen	3	3.0	$0.090	0/3	540ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.090 Antwortzeit (Durchschnitt) 540ms
#108	Ring-2.6-1T medium	Inclusionai	3	3.5	$0.103	0/3	64.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.103 Antwortzeit (Durchschnitt) 64.9s
#111	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 1.72s
#116	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 1.33s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten