Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#1	Gemini 3 Flash Preview medium	Google	1	9.6	$0.742	21/22	19.2s
Gesamttests 22 Falsche Tests 1 Gesamtkosten $0.742 Antwortzeit (Durchschnitt) 19.2s
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Gesamttests 22 Falsche Tests 2 Gesamtkosten $1.976 Antwortzeit (Durchschnitt) 15.1s
#209	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Gesamttests 12 Falsche Tests 6 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 39.0s
#7	Gemini 3.1 Pro Preview medium	Google	2	9.2	$1.361	20/22	21.5s
Gesamttests 22 Falsche Tests 2 Gesamtkosten $1.361 Antwortzeit (Durchschnitt) 21.5s
#9	Gemini 3.5 Flash medium	Google	2	9.1	$0.642	19/22	8.20s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $0.642 Antwortzeit (Durchschnitt) 8.20s
#11	Gemini 3.5 Flash low	Google	2	8.9	$0.433	19/22	5.55s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $0.433 Antwortzeit (Durchschnitt) 5.55s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Gesamttests 22 Falsche Tests 5 Gesamtkosten $1.707 Antwortzeit (Durchschnitt) 76.5s
#17	Claude Fable 5 medium	Anthropic	2	8.6	$3.478	17/22	17.2s
Gesamttests 22 Falsche Tests 5 Gesamtkosten $3.478 Antwortzeit (Durchschnitt) 17.2s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 75.4s
#119	Qwen3.5-35B-A3B medium	Qwen	2	6.2	$0.837	11/22	112.5s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.837 Antwortzeit (Durchschnitt) 112.5s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Gesamttests 16 Falsche Tests 3 Gesamtkosten $2.310 Antwortzeit (Durchschnitt) 68.1s
#175	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 15.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Gesamttests 22 Falsche Tests 19 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 82.2s
#6	GPT-5.5 low	OpenAI	3	9.3	$1.253	19/22	10.1s
Gesamttests 22 Falsche Tests 3 Gesamtkosten $1.253 Antwortzeit (Durchschnitt) 10.1s
#8	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.116 Antwortzeit (Durchschnitt) 40.6s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)