Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Granite 4.1 8B 13

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 1.58s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.139 Antwortzeit (Durchschnitt) 84.8s
#149	Gemini 3.1 Flash Lite high	Google	4	5.6	$2.044	10/18	62.0s
Gesamttests 18 Falsche Tests 8 Gesamtkosten $2.044 Antwortzeit (Durchschnitt) 62.0s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Gesamttests 21 Falsche Tests 9 Gesamtkosten $0.333 Antwortzeit (Durchschnitt) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Gesamttests 21 Falsche Tests 9 Gesamtkosten $0.043 Antwortzeit (Durchschnitt) 20.1s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.647 Antwortzeit (Durchschnitt) 11.5s
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $3.059 Antwortzeit (Durchschnitt) 34.3s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 49.7s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.774 Antwortzeit (Durchschnitt) 32.2s
#58	GPT-5.3 Chat none	OpenAI	7	7.5	$0.571	13/22	6.88s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.571 Antwortzeit (Durchschnitt) 6.88s
#59	GPT-5.6 Terra low	OpenAI	8	7.5	$0.519	13/22	5.31s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.519 Antwortzeit (Durchschnitt) 5.31s
#62	Qwen3.5-27B medium	Qwen	4	7.4	$1.627	13/22	111.9s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $1.627 Antwortzeit (Durchschnitt) 111.9s
#68	Gemini 3.1 Flash Lite Preview medium	Google	7	7.3	$0.115	13/22	4.61s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.115 Antwortzeit (Durchschnitt) 4.61s
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.117 Antwortzeit (Durchschnitt) 4.27s
#70	Claude Opus 4.8 none	Anthropic	4	7.3	$1.166	13/22	4.91s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $1.166 Antwortzeit (Durchschnitt) 4.91s

←

1 9 10 11 15

→

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)