Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

LFM2-24B-A2B 9

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 1.86s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 6.20s
#125	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.837 Antwortzeit (Durchschnitt) 112.5s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.249 Antwortzeit (Durchschnitt) 5.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 4.40s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 5.34s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.139 Antwortzeit (Durchschnitt) 84.8s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Gesamttests 21 Falsche Tests 9 Gesamtkosten $0.043 Antwortzeit (Durchschnitt) 20.1s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 6.04s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 5.18s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.107 Antwortzeit (Durchschnitt) 75.4s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Gesamttests 21 Falsche Tests 9 Gesamtkosten $0.333 Antwortzeit (Durchschnitt) 22.2s
#114	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.103 Antwortzeit (Durchschnitt) 68.7s
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 9.85s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 1.58s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)