Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Nemotron 3 Nano Omni 30b A3b Reasoning 9

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.177 Antwortzeit (Durchschnitt) 6.28s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.164 Antwortzeit (Durchschnitt) 6.70s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Gesamttests 19 Falsche Tests 13 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 6.73s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.571 Antwortzeit (Durchschnitt) 6.88s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.676 Antwortzeit (Durchschnitt) 7.11s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.352 Antwortzeit (Durchschnitt) 7.28s
#18	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.477 Antwortzeit (Durchschnitt) 7.61s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 7.64s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.604 Antwortzeit (Durchschnitt) 7.65s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.231 Antwortzeit (Durchschnitt) 7.82s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.661 Antwortzeit (Durchschnitt) 8.12s
#12	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $0.642 Antwortzeit (Durchschnitt) 8.20s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 8.42s
#168	Ling-2.6-1T none	Inclusionai	12	5.3	$0.016	4/22	8.58s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 8.58s
#5	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $0.971 Antwortzeit (Durchschnitt) 8.79s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)