Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↓.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.970 Antwortzeit (Durchschnitt) 62.7s
#32	Inkling medium	Thinkingmachines	4	8.0	$0.391	15/22	16.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 16.2s
#34	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.055 Antwortzeit (Durchschnitt) 11.3s
#35	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.234 Antwortzeit (Durchschnitt) 48.5s
#36	Qwen3.7 Plus medium	Qwen	5	7.9	$0.267	15/22	51.5s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.267 Antwortzeit (Durchschnitt) 51.5s
#37	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.405 Antwortzeit (Durchschnitt) 43.1s
#38	GLM 5.2 medium	Z.ai	3	7.8	$0.222	15/21	23.3s
Gesamttests 21 Falsche Tests 6 Gesamtkosten $0.222 Antwortzeit (Durchschnitt) 23.3s
#39	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.676 Antwortzeit (Durchschnitt) 7.11s
#40	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $2.057 Antwortzeit (Durchschnitt) 25.9s
#41	Claude Opus 4.8 low	Anthropic	4	7.8	$2.077	16/22	12.7s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $2.077 Antwortzeit (Durchschnitt) 12.7s
#42	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
Gesamttests 21 Falsche Tests 6 Gesamtkosten $0.307 Antwortzeit (Durchschnitt) 33.5s
#43	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $3.059 Antwortzeit (Durchschnitt) 34.3s
#44	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.017 Antwortzeit (Durchschnitt) 18.7s
#45	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.042	13/22	49.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.042 Antwortzeit (Durchschnitt) 49.7s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 79.1s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)