Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Mercury 2 17

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.604 Antwortzeit (Durchschnitt) 7.65s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 79.1s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.756 Antwortzeit (Durchschnitt) 25.9s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.177 Antwortzeit (Durchschnitt) 6.28s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.777 Antwortzeit (Durchschnitt) 29.5s
#90	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $1.207 Antwortzeit (Durchschnitt) 64.7s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 148.7s
#105	Qwen3.6 27B medium	Qwen	6	6.5	$0.779	10/22	106.3s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 106.3s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.103 Antwortzeit (Durchschnitt) 68.7s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 41.3s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Gesamttests 19 Falsche Tests 13 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 6.73s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.533 Antwortzeit (Durchschnitt) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $1.143 Antwortzeit (Durchschnitt) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.237 Antwortzeit (Durchschnitt) 27.6s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)