Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Granite 4.1 8B 13

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#200	MiMo-V2-Flash none	Xiaomi	13	4.0	$0.025	4/21	2.76s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 2.76s
#192	Laguna M.1 none	Poolside	10	4.4	$0.009	4/19	2.89s
Gesamttests 19 Falsche Tests 15 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 2.89s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Gesamttests 19 Falsche Tests 15 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 17.1s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 36.8s
#160	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.55s
#165	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.022 Antwortzeit (Durchschnitt) 1.20s
#166	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 9.12s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 10.8s
#168	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 4.62s
#172	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 41.3s
#174	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 1.99s
#177	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 5.97s
#182	KAT-Coder-Air V2.5 none	Kwaipilot	13	4.8	$0.067	5/22	12.2s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.067 Antwortzeit (Durchschnitt) 12.2s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.340 Antwortzeit (Durchschnitt) 68.3s
#193	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
Gesamttests 21 Falsche Tests 16 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.22s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)