Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#133	Gemini 3 PRO Preview medium	Google	3	6.0	$0.385	14/21	9.05s
Gesamttests 21 Falsche Tests 7 Gesamtkosten $0.385 Antwortzeit (Durchschnitt) 9.05s
#135	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Gesamttests 21 Falsche Tests 10 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 56.6s
#3	GPT-5.6 Sol low	OpenAI	4	9.5	$0.971	18/22	8.79s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $0.971 Antwortzeit (Durchschnitt) 8.79s
#4	GPT-5.6 Sol medium	OpenAI	4	9.4	$1.316	18/22	11.4s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.316 Antwortzeit (Durchschnitt) 11.4s
#5	GPT-5.6 Sol high	OpenAI	4	9.4	$1.234	18/22	11.7s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.234 Antwortzeit (Durchschnitt) 11.7s
#10	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $4.137 Antwortzeit (Durchschnitt) 38.4s
#13	GPT-5.3-Codex medium	OpenAI	4	8.9	$0.920	16/22	17.0s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.920 Antwortzeit (Durchschnitt) 17.0s
#16	Muse Spark 1.1 medium	Meta	4	8.6	$1.357	15/22	25.0s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.357 Antwortzeit (Durchschnitt) 25.0s
#23	Claude Sonnet 5 medium	Anthropic	4	8.3	$0.922	16/22	12.5s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.922 Antwortzeit (Durchschnitt) 12.5s
#27	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $1.694 Antwortzeit (Durchschnitt) 31.5s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.006 Antwortzeit (Durchschnitt) 64.2s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 16.2s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $2.057 Antwortzeit (Durchschnitt) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $2.077 Antwortzeit (Durchschnitt) 12.7s
#49	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Gesamttests 21 Falsche Tests 7 Gesamtkosten $0.323 Antwortzeit (Durchschnitt) 23.0s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)