Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Granite 4.1 8B 13

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#113	Qwen3.5 Plus 2026-02-15 none	Qwen	12	6.4	$0.073	10/22	9.85s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 9.85s
#121	Gemma 4 31B none	Google	9	6.2	$0.021	10/22	5.34s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 5.34s
#123	GPT-5.6 Luna low	OpenAI	10	6.2	$0.249	10/22	5.04s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.249 Antwortzeit (Durchschnitt) 5.04s
#126	Gemini 3.1 Flash Lite minimal	Google	8	6.1	$0.047	10/22	1.86s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.047 Antwortzeit (Durchschnitt) 1.86s
#129	Inkling low	Thinkingmachines	8	6.1	$0.187	10/22	5.15s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 5.15s
#181	Qwen3.6 Plus Preview medium	Qwen	2	4.9	$0.000	9/19	15.2s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 15.2s
#191	Grok 4.1 Fast medium	X AI	4	4.7	$0.069	9/19	23.8s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.069 Antwortzeit (Durchschnitt) 23.8s
#192	Laguna M.1 medium	Poolside	4	4.7	$0.033	9/19	14.7s
Gesamttests 19 Falsche Tests 10 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 14.7s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
Gesamttests 21 Falsche Tests 11 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 41.2s
#159	Hy3 preview low	Tencent	4	5.5	$0.015	10/21	24.6s
Gesamttests 21 Falsche Tests 11 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 24.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.387 Antwortzeit (Durchschnitt) 19.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.482 Antwortzeit (Durchschnitt) 20.8s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.1s
#80	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 68.6s
#84	Seed-2.0-Mini medium	Bytedance Seed	4	7.0	$0.101	11/22	92.5s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.101 Antwortzeit (Durchschnitt) 92.5s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)