Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Mercury 2 17

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#136	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 1.53s
#142	Qwen3.5-122B-A10B none	Qwen	13	5.7	$0.247	6/22	12.9s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.247 Antwortzeit (Durchschnitt) 12.9s
#151	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.164 Antwortzeit (Durchschnitt) 6.70s
#161	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.061 Antwortzeit (Durchschnitt) 5.52s
#164	Inkling none	Thinkingmachines	13	5.2	$0.147	6/22	3.50s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.147 Antwortzeit (Durchschnitt) 3.50s
#170	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
Gesamttests 21 Falsche Tests 15 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 2.82s
#176	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 9.15s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.067 Antwortzeit (Durchschnitt) 12.2s
#187	Qwen3 Coder Next medium	Qwen	13	4.7	$0.032	4/22	9.61s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.032 Antwortzeit (Durchschnitt) 9.61s
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 2.76s
#201	Granite 4.1 8B none	IBM Granite	13	4.0	$0.007	2/22	1.45s
Gesamttests 22 Falsche Tests 20 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 1.45s
#203	Grok 4.1 Fast none	X AI	13	3.8	$0.008	3/19	1.62s
Gesamttests 19 Falsche Tests 16 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.62s
#103	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.090 Antwortzeit (Durchschnitt) 4.76s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 9.85s
#118	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 6.20s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)