Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Granite 4.1 8B 13

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 6.04s
#122	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 4.40s
#131	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 25.3s
#132	Qwen3.5 Plus 2026-04-20 none	Qwen	12	6.1	$0.122	8/22	13.6s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.122 Antwortzeit (Durchschnitt) 13.6s
#135	Nemotron 3 Ultra none	NVIDIA	12	6.1	$0.095	8/22	3.87s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 3.87s
#138	GPT-5.6 Terra none	OpenAI	11	6.0	$0.349	8/22	1.65s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.349 Antwortzeit (Durchschnitt) 1.65s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.055 Antwortzeit (Durchschnitt) 52.0s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	11	5.6	$0.048	8/22	8.42s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 8.42s
#162	Gemma 4 26B A4B none	Google	10	5.5	$0.015	8/22	7.64s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 7.64s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Gesamttests 19 Falsche Tests 12 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 28.7s
#151	GLM 5V Turbo none	Z.ai	11	5.6	$0.052	8/21	2.99s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 2.99s
#152	Owl Alpha medium	Openrouter	10	5.6	$0.000	8/21	11.9s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 11.9s
#163	Mimo V2 Omni none	Xiaomi	10	5.5	$0.021	8/21	2.44s
Gesamttests 21 Falsche Tests 13 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 2.44s
#102	LongCat 2.0 high	Meituan	6	6.6	$0.469	9/22	148.7s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 148.7s
#108	Laguna XS 2.1 medium	Poolside	11	6.5	$0.068	9/22	47.9s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 47.9s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)