Ranking für Domänenspezifisch x Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

421

Am stärksten betroffenes Modell

Muse Spark 1.1 3

Fehlergründe

Falsche Antwort421 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

202/202

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3	3.6	$0.000	0/3	489ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 489ms
#5	GPT-5.6 Sol low	OpenAI	2	5.3	$0.971	1/3	29.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.971 Antwortzeit (Durchschnitt) 29.1s
#7	GPT-5.6 Sol medium	OpenAI	2	5.9	$1.316	1/3	47.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.316 Antwortzeit (Durchschnitt) 47.9s
#8	GPT-5.6 Sol high	OpenAI	2	5.3	$1.234	1/3	39.5s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.234 Antwortzeit (Durchschnitt) 39.5s
#9	GPT-5.5 low	OpenAI	2	5.3	$1.253	1/3	28.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.253 Antwortzeit (Durchschnitt) 28.1s
#11	Qwen3.7 Max medium	Qwen	2	5.9	$1.116	1/3	24.9s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.116 Antwortzeit (Durchschnitt) 24.9s
#13	GPT-5.5 medium	OpenAI	2	5.3	$4.137	1/3	164.1s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $4.137 Antwortzeit (Durchschnitt) 164.1s
#15	Grok 4.5 high	X AI	2	3.6	$1.707	0/3	332.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.707 Antwortzeit (Durchschnitt) 332.1s
#16	GPT-5.3-Codex medium	OpenAI	2	5.9	$0.920	1/3	64.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.920 Antwortzeit (Durchschnitt) 64.3s
#17	Claude Opus 4.8 medium	Anthropic	2	5.3	$1.931	1/3	14.6s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.931 Antwortzeit (Durchschnitt) 14.6s
#20	Claude Fable 5 medium	Anthropic	2	5.3	$3.478	1/3	53.4s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $3.478 Antwortzeit (Durchschnitt) 53.4s
#21	GPT-5.4 medium	OpenAI	2	5.3	$1.533	1/3	74.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $1.533 Antwortzeit (Durchschnitt) 74.3s
#28	Gemini 2.5 Flash medium	Google	2	5.9	$0.643	1/3	37.3s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.643 Antwortzeit (Durchschnitt) 37.3s
#29	GPT-5 Mini medium	OpenAI	2	3.6	$0.237	0/3	44.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.237 Antwortzeit (Durchschnitt) 44.6s
#30	Muse Spark 1.1 high	Meta	2	3.5	$1.694	0/3	67.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.694 Antwortzeit (Durchschnitt) 67.4s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten