Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Granite 4.1 8B 13

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#130	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.062 Antwortzeit (Durchschnitt) 3.74s
#133	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.7s
#144	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.184 Antwortzeit (Durchschnitt) 19.6s
#145	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.397 Antwortzeit (Durchschnitt) 2.07s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	9	5.6	$0.077	7/22	15.9s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.077 Antwortzeit (Durchschnitt) 15.9s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.164 Antwortzeit (Durchschnitt) 6.70s
#158	Qwen3.6 27B none	Qwen	11	5.5	$0.087	7/22	10.7s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 10.7s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 10.1s
#153	Mimo V2 PRO none	Xiaomi	11	5.6	$0.045	7/21	2.27s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 2.27s
#154	Owl Alpha none	Openrouter	10	5.6	$0.000	7/21	9.88s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 9.88s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 39.9s
#197	Grok 4.20 Beta none	X AI	10	4.4	$0.087	6/18	1.19s
Gesamttests 18 Falsche Tests 12 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 1.19s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Gesamttests 18 Falsche Tests 12 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 4.70s
#203	Grok 4.20 none	X AI	10	4.1	$0.057	6/18	1.11s
Gesamttests 18 Falsche Tests 12 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 1.11s
#109	Qwen3.5-27B none	Qwen	12	6.5	$0.090	8/22	4.76s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.090 Antwortzeit (Durchschnitt) 4.76s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)