Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Mercury 2 17

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#124	Qwen3.6 Flash none	Qwen	12	6.1	$0.062	7/22	3.74s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.062 Antwortzeit (Durchschnitt) 3.74s
#126	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.122 Antwortzeit (Durchschnitt) 13.6s
#127	Qwen3.5-35B-A3B none	Qwen	12	6.1	$0.106	7/22	12.7s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.7s
#129	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 3.87s
#141	GLM 5 none	Z.ai	12	5.7	$0.041	9/21	4.03s
Gesamttests 21 Falsche Tests 12 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 4.03s
#150	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.044	5/22	36.8s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 36.8s
#162	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 8.58s
#167	Mistral Small 4 medium	Mistral	12	5.1	$0.096	5/22	10.8s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 10.8s
#171	North Mini Code none	Cohere	12	5.1	$0.000	4/22	29.9s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 29.9s
#183	Trinity Large Preview none	Arcee AI	12	4.8	$0.008	4/21	2.98s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 2.98s
#87	GPT-5.5 none	OpenAI	11	6.9	$0.544	11/22	2.36s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.544 Antwortzeit (Durchschnitt) 2.36s
#102	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 47.9s
#122	Gemini 3.1 Flash Lite none	Google	11	6.1	$0.046	9/22	1.75s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.046 Antwortzeit (Durchschnitt) 1.75s
#132	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.349 Antwortzeit (Durchschnitt) 1.65s
#138	Kimi K2.6 none	Moonshot AI	11	5.8	$0.184	7/22	19.6s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.184 Antwortzeit (Durchschnitt) 19.6s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)