Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Mercury 2 17

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#145	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 2.99s
#147	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 2.27s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 8.42s
#152	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 10.7s
#154	MiMo-V2.5-Pro none	Xiaomi	11	5.5	$0.068	6/22	4.12s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 4.12s
#62	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.387 Antwortzeit (Durchschnitt) 19.5s
#69	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.482 Antwortzeit (Durchschnitt) 20.8s
#71	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.1s
#83	GPT-5.6 Sol none	OpenAI	10	6.9	$0.524	11/22	2.16s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.524 Antwortzeit (Durchschnitt) 2.16s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	10	6.7	$0.476	11/22	25.6s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.476 Antwortzeit (Durchschnitt) 25.6s
#98	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.231 Antwortzeit (Durchschnitt) 7.82s
#117	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.249 Antwortzeit (Durchschnitt) 5.04s
#146	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 11.9s
#148	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 9.88s
#156	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 7.64s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)