Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Gemini 3.6 Flash 1

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 5.31s
#71	Step 3.7 Flash low	Stepfun	8	7.3	$0.454	12/22	20.7s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.454 Antwortzeit (Durchschnitt) 20.7s
#74	Qwen3.5 Plus 2026-04-20 medium	Qwen	8	7.2	$0.317	13/22	46.4s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.317 Antwortzeit (Durchschnitt) 46.4s
#82	Mercury 2 medium	Inception	8	7.0	$0.093	10/22	2.72s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.093 Antwortzeit (Durchschnitt) 2.72s
#86	DeepSeek V4 Pro none	DeepSeek	8	6.9	$0.096	10/22	11.6s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 11.6s
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.738 Antwortzeit (Durchschnitt) 44.7s
#93	Gemini 3 Flash Preview none	Google	8	6.8	$0.085	13/22	2.95s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.085 Antwortzeit (Durchschnitt) 2.95s
#96	LongCat 2.0 low	Meituan	8	6.7	$0.391	10/22	100.3s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 100.3s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.128 Antwortzeit (Durchschnitt) 9.34s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 5.15s
#205	Hy3 preview none	Tencent	8	4.0	$0.003	4/21	12.9s
Gesamttests 21 Falsche Tests 17 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 12.9s
#211	Laguna Xs.2 none	Poolside	8	3.8	$0.004	5/19	806ms
Gesamttests 19 Falsche Tests 14 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 806ms
#212	gpt-oss-120b none	OpenAI	8	3.7	$0.010	6/19	21.6s
Gesamttests 19 Falsche Tests 13 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 21.6s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	9	6.9	$0.467	11/22	24.0s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.467 Antwortzeit (Durchschnitt) 24.0s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)