Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Punktzahl ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

LFM2-24B-A2B 9

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.600 Antwortzeit (Durchschnitt) 99.0s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 68.6s
#79	Grok 4.20 medium	X AI	6	7.1	$0.777	12/22	29.5s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.777 Antwortzeit (Durchschnitt) 29.5s
#78	GLM 5.1 medium	Z.ai	4	7.1	$0.535	13/22	46.8s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.535 Antwortzeit (Durchschnitt) 46.8s
#77	Grok 4.3 medium	X AI	5	7.1	$0.779	13/22	47.4s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.779 Antwortzeit (Durchschnitt) 47.4s
#76	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.046 Antwortzeit (Durchschnitt) 64.2s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.1s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.317 Antwortzeit (Durchschnitt) 46.4s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.482 Antwortzeit (Durchschnitt) 20.8s
#72	Kimi K2.6 medium	Moonshot AI	3	7.2	$1.036	12/22	110.0s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $1.036 Antwortzeit (Durchschnitt) 110.0s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.454 Antwortzeit (Durchschnitt) 20.7s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $1.166 Antwortzeit (Durchschnitt) 4.91s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.117 Antwortzeit (Durchschnitt) 4.27s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.115 Antwortzeit (Durchschnitt) 4.61s
#67	Claude Sonnet 4.6 none	Anthropic	5	7.3	$0.661	12/22	8.12s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.661 Antwortzeit (Durchschnitt) 8.12s

←

1 9 10 11 15

→

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)