Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Mercury 2 17

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 2.44s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Gesamttests 18 Falsche Tests 12 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 1.19s
#198	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Gesamttests 19 Falsche Tests 15 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 2.89s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Gesamttests 18 Falsche Tests 12 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.467 Antwortzeit (Durchschnitt) 24.0s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.145 Antwortzeit (Durchschnitt) 2.25s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.369 Antwortzeit (Durchschnitt) 6.01s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.621 Antwortzeit (Durchschnitt) 16.3s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 5.34s
#127	gpt-oss-120b medium	OpenAI	9	6.1	$0.019	9/22	21.9s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.019 Antwortzeit (Durchschnitt) 21.9s
#134	GPT-5 Nano medium	OpenAI	9	6.1	$0.114	9/22	54.9s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.114 Antwortzeit (Durchschnitt) 54.9s
#143	North Mini Code medium	Cohere	9	5.9	$0.000	9/22	137.1s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 137.1s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.077 Antwortzeit (Durchschnitt) 15.9s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.002 Antwortzeit (Durchschnitt) 10.7s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 39.9s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)