Ranking für Domänenspezifisch x Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

421

Am stärksten betroffenes Modell

Muse Spark 1.1 3

Fehlergründe

Falsche Antwort421 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

202/202

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#117	LongCat 2.0 none	Meituan	3	3.0	$0.044	0/3	1.72s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 1.72s
#122	Seed-2.0-Lite none	Bytedance Seed	3	3.6	$0.066	0/3	1.33s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 1.33s
#123	GPT-5.6 Luna low	OpenAI	3	3.6	$0.249	0/3	10.0s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.249 Antwortzeit (Durchschnitt) 10.0s
#126	Gemini 3.1 Flash Lite minimal	Google	3	2.9	$0.047	0/3	1.02s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 1.02s
#127	gpt-oss-120b medium	OpenAI	3	2.9	$0.019	0/3	50.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.019 Antwortzeit (Durchschnitt) 50.9s
#128	Gemini 3.1 Flash Lite none	Google	3	2.9	$0.046	0/3	762ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.046 Antwortzeit (Durchschnitt) 762ms
#142	GPT-5.4 Mini none	OpenAI	3	3.5	$0.095	0/3	937ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 937ms
#147	GLM 5 none	Z.ai	3	3.0	$0.041	0/3	2.24s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 2.24s
#149	Gemini 3.1 Flash Lite high	Google	3	3.6	$2.044	0/3	139.9s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $2.044 Antwortzeit (Durchschnitt) 139.9s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	3	3.0	$0.048	0/3	4.87s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 4.87s
#157	GLM 5.1 none	Z.ai	3	2.9	$0.164	0/3	1.99s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.164 Antwortzeit (Durchschnitt) 1.99s
#162	Gemma 4 26B A4B none	Google	3	3.6	$0.015	0/3	2.49s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 2.49s
#165	GPT-5.6 Luna none	OpenAI	3	2.9	$0.142	0/3	737ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.142 Antwortzeit (Durchschnitt) 737ms
#167	Qwen3.6 35B A3B none	Qwen	3	3.5	$0.061	0/3	7.45s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.061 Antwortzeit (Durchschnitt) 7.45s
#168	Ling-2.6-1T none	Inclusionai	3	3.0	$0.016	0/3	1.04s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 1.04s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten