Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Step 3.5 Flash 4

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.676 Antwortzeit (Durchschnitt) 7.11s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.571 Antwortzeit (Durchschnitt) 6.88s
#204	Laguna Xs.2 medium	Poolside	6	4.1	$0.015	6/19	6.73s
Gesamttests 19 Falsche Tests 13 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 6.73s
#157	GLM 5.1 none	Z.ai	13	5.5	$0.164	7/22	6.70s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.164 Antwortzeit (Durchschnitt) 6.70s
#65	Gemini 3 Flash Preview low	Google	6	7.4	$0.177	16/22	6.28s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.177 Antwortzeit (Durchschnitt) 6.28s
#124	Gemini 2.5 Flash none	Google	12	6.2	$0.017	9/22	6.20s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 6.20s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 6.04s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.369 Antwortzeit (Durchschnitt) 6.01s
#183	Nemotron 3 Super none	NVIDIA	15	4.9	$0.008	5/22	5.97s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 5.97s
#14	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $0.433 Antwortzeit (Durchschnitt) 5.55s
#167	Qwen3.6 35B A3B none	Qwen	13	5.3	$0.061	4/22	5.52s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.061 Antwortzeit (Durchschnitt) 5.52s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 5.34s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 5.31s
#117	LongCat 2.0 none	Meituan	14	6.3	$0.044	7/22	5.18s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 5.18s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 5.15s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)