Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↓.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Gemini 3.6 Flash 1

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $3.059 Antwortzeit (Durchschnitt) 34.3s
#48	GPT-5.6 Luna high	OpenAI	7	7.7	$1.017	15/22	18.7s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.017 Antwortzeit (Durchschnitt) 18.7s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 49.7s
#50	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 79.1s
#51	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.286 Antwortzeit (Durchschnitt) 75.0s
#52	Grok Build 0.1 medium	X AI	5	7.6	$1.097	14/22	52.1s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.097 Antwortzeit (Durchschnitt) 52.1s
#53	GLM 5 Turbo medium	Z.ai	4	7.6	$0.323	14/21	23.0s
Gesamttests 21 Falsche Tests 7 Gesamtkosten $0.323 Antwortzeit (Durchschnitt) 23.0s
#54	GPT-5.6 Luna medium	OpenAI	8	7.6	$0.352	14/22	7.28s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.352 Antwortzeit (Durchschnitt) 7.28s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.774 Antwortzeit (Durchschnitt) 32.2s
#56	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.740	12/22	84.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 84.2s
#57	GPT-5.4 Nano medium	OpenAI	8	7.5	$0.138	12/22	13.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.138 Antwortzeit (Durchschnitt) 13.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.571 Antwortzeit (Durchschnitt) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 5.31s
#60	GPT-5.4 Mini medium	OpenAI	6	7.5	$0.756	12/22	25.9s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.756 Antwortzeit (Durchschnitt) 25.9s
#61	Qwen3.5 Plus 2026-02-15 medium	Qwen	4	7.5	$0.437	14/22	89.2s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.437 Antwortzeit (Durchschnitt) 89.2s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)