Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Mercury 2 17

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#199	Elephant Alpha none	Openrouter	9	4.3	$0.000	5/21	1.22s
Gesamttests 21 Falsche Tests 16 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.22s
#200	GLM 4.7 Flash medium	Z.ai	9	4.3	$0.166	4/22	142.6s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.166 Antwortzeit (Durchschnitt) 142.6s
#201	Elephant Alpha medium	Openrouter	9	4.3	$0.000	6/21	1.27s
Gesamttests 21 Falsche Tests 15 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.27s
#202	Hunter Alpha none	OpenRouter	9	4.2	$0.000	6/18	4.70s
Gesamttests 18 Falsche Tests 12 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 4.70s
#214	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	9	3.2	$0.000	2/19	728ms
Gesamttests 19 Falsche Tests 17 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 728ms
#216	LFM2-24B-A2B none	Liquid	9	2.2	$0.001	2/16	782ms
Gesamttests 16 Falsche Tests 14 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 782ms
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.676 Antwortzeit (Durchschnitt) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.352 Antwortzeit (Durchschnitt) 7.28s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.138 Antwortzeit (Durchschnitt) 13.2s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 5.31s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.454 Antwortzeit (Durchschnitt) 20.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.317 Antwortzeit (Durchschnitt) 46.4s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 11.6s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.738 Antwortzeit (Durchschnitt) 44.7s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)