Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Gemini 3.6 Flash 1

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.069 Antwortzeit (Durchschnitt) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 14.7s
#21	GPT-5.4 medium	OpenAI	5	8.5	$1.533	15/22	23.1s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.533 Antwortzeit (Durchschnitt) 23.1s
#22	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $1.143 Antwortzeit (Durchschnitt) 67.5s
#29	GPT-5 Mini medium	OpenAI	5	8.1	$0.237	12/22	27.6s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.237 Antwortzeit (Durchschnitt) 27.6s
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.515 Antwortzeit (Durchschnitt) 26.4s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.234 Antwortzeit (Durchschnitt) 48.5s
#40	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.267 Antwortzeit (Durchschnitt) 51.5s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.405 Antwortzeit (Durchschnitt) 43.1s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.097 Antwortzeit (Durchschnitt) 52.1s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 84.2s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.661 Antwortzeit (Durchschnitt) 8.12s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.046 Antwortzeit (Durchschnitt) 64.2s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 47.4s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 68.6s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)