Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Gemini 3.6 Flash 1

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#33	Step 3.7 Flash medium	Stepfun	5	8.0	$0.515	14/22	26.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.515 Antwortzeit (Durchschnitt) 26.4s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.604 Antwortzeit (Durchschnitt) 7.65s
#35	GLM 5.2 high	Z.ai	3	8.0	$0.817	14/22	62.7s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.817 Antwortzeit (Durchschnitt) 62.7s
#38	GPT-5.6 Terra high	OpenAI	7	8.0	$1.055	14/22	11.3s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.055 Antwortzeit (Durchschnitt) 11.3s
#39	Seed-2.0-Lite medium	Bytedance Seed	5	7.9	$0.234	14/22	48.5s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.234 Antwortzeit (Durchschnitt) 48.5s
#43	GPT-5.6 Terra medium	OpenAI	8	7.8	$0.676	14/22	7.11s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.676 Antwortzeit (Durchschnitt) 7.11s
#44	Claude Sonnet 4.6 medium	Anthropic	4	7.8	$2.057	14/22	25.9s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $2.057 Antwortzeit (Durchschnitt) 25.9s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.097 Antwortzeit (Durchschnitt) 52.1s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.352 Antwortzeit (Durchschnitt) 7.28s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.437 Antwortzeit (Durchschnitt) 89.2s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.046 Antwortzeit (Durchschnitt) 64.2s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.300 Antwortzeit (Durchschnitt) 2.65s
#100	Gemma 4 26B A4B medium	Google	3	6.6	$0.089	14/22	103.8s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.089 Antwortzeit (Durchschnitt) 103.8s
#116	Gemma 4 31B medium	Google	2	6.3	$0.107	14/22	75.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.107 Antwortzeit (Durchschnitt) 75.4s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.647 Antwortzeit (Durchschnitt) 11.5s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)