Ranking für Domänenspezifisch x Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

421

Am stärksten betroffenes Modell

Muse Spark 1.1 3

Fehlergründe

Falsche Antwort421 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

202/202

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#203	Grok 4.20 none	X AI	2	3.0	$0.057	0/3	687ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 687ms
#204	Laguna Xs.2 medium	Poolside	2	4.1	$0.015	0/3	11.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 11.1s
#205	Hy3 preview none	Tencent	2	3.6	$0.003	0/3	17.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 17.6s
#206	MiMo-V2-Flash none	Xiaomi	2	5.3	$0.025	1/3	564ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 564ms
#208	Grok Build 0.1 none	X AI	2	3.6	$0.547	0/3	103.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 103.7s
#209	Grok 4.1 Fast none	X AI	2	5.9	$0.008	1/3	1.06s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.06s
#211	Laguna Xs.2 none	Poolside	2	5.3	$0.004	1/3	371ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 371ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	2	2.9	$0.000	0/3	56.7s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 56.7s
#1	Gemini 3.6 Flash medium	Google	1	8.2	$0.831	2/3	12.6s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.831 Antwortzeit (Durchschnitt) 12.6s
#4	Gemini 3.5 Flash high	Google	1	7.6	$1.976	2/3	14.1s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.976 Antwortzeit (Durchschnitt) 14.1s
#10	Gemini 3.1 Pro Preview medium	Google	1	7.7	$1.361	2/3	32.7s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $1.361 Antwortzeit (Durchschnitt) 32.7s
#12	Gemini 3.5 Flash medium	Google	1	7.7	$0.642	2/3	5.24s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.642 Antwortzeit (Durchschnitt) 5.24s
#14	Gemini 3.5 Flash low	Google	1	7.7	$0.433	2/3	3.39s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.433 Antwortzeit (Durchschnitt) 3.39s
#24	GPT-5.2 medium	OpenAI	1	5.9	$0.951	1/3	77.8s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.951 Antwortzeit (Durchschnitt) 77.8s
#26	Claude Sonnet 5 medium	Anthropic	1	7.7	$0.922	2/3	20.4s
Gesamttests 3 Falsche Tests 1 Gesamtkosten $0.922 Antwortzeit (Durchschnitt) 20.4s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten