Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↓.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Gesamttests 22 Falsche Tests 1 Gesamtkosten $0.742 Antwortzeit (Durchschnitt) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Gesamttests 22 Falsche Tests 2 Gesamtkosten $1.976 Antwortzeit (Durchschnitt) 15.1s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $0.971 Antwortzeit (Durchschnitt) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.316 Antwortzeit (Durchschnitt) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.234 Antwortzeit (Durchschnitt) 11.7s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $1.253 Antwortzeit (Durchschnitt) 10.1s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Gesamttests 22 Falsche Tests 2 Gesamtkosten $1.361 Antwortzeit (Durchschnitt) 21.5s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.116 Antwortzeit (Durchschnitt) 40.6s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $0.642 Antwortzeit (Durchschnitt) 8.20s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $4.137 Antwortzeit (Durchschnitt) 38.4s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $0.433 Antwortzeit (Durchschnitt) 5.55s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Gesamttests 22 Falsche Tests 5 Gesamtkosten $1.707 Antwortzeit (Durchschnitt) 76.5s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.920 Antwortzeit (Durchschnitt) 17.0s
#14	Claude Opus 4.8 medium	Anthropic	3	8.8	$1.931	18/22	12.5s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.931 Antwortzeit (Durchschnitt) 12.5s
#15	Claude Opus 4.7 medium	Anthropic	3	8.7	$1.477	18/22	7.61s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.477 Antwortzeit (Durchschnitt) 7.61s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)