Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

LFM2-24B-A2B 9

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#186	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 2.57s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 55.1s
#184	Ling-2.6-flash none	Inclusionai	9	4.9	$0.002	6/22	10.7s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.002 Antwortzeit (Durchschnitt) 10.7s
#183	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 5.97s
#182	GLM 4.7 Flash none	Z.ai	13	4.9	$0.016	6/22	9.15s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 9.15s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 15.2s
#180	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 1.99s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 18.3s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 41.3s
#177	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 29.9s
#176	GLM 5 Turbo none	Z.ai	13	5.1	$0.047	6/21	2.82s
Gesamttests 21 Falsche Tests 15 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 2.82s
#175	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 19.2s
#174	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 4.62s
#173	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 10.8s
#172	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 9.12s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)