Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Gemini 3.6 Flash 1

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#81	Kimi K2.5 medium	Moonshot AI	5	7.0	$0.600	10/22	99.0s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.600 Antwortzeit (Durchschnitt) 99.0s
#92	Gemini 3.5 Flash minimal	Google	5	6.8	$0.300	14/22	2.65s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.300 Antwortzeit (Durchschnitt) 2.65s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.082 Antwortzeit (Durchschnitt) 32.2s
#115	Mimo V2 PRO medium	Xiaomi	5	6.3	$0.333	12/21	22.2s
Gesamttests 21 Falsche Tests 9 Gesamtkosten $0.333 Antwortzeit (Durchschnitt) 22.2s
#119	MiMo-V2-Flash medium	Xiaomi	5	6.3	$0.043	12/21	20.1s
Gesamttests 21 Falsche Tests 9 Gesamtkosten $0.043 Antwortzeit (Durchschnitt) 20.1s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
Gesamttests 21 Falsche Tests 11 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 41.2s
#146	Nemotron 3 Super medium	NVIDIA	5	5.7	$0.055	8/22	52.0s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.055 Antwortzeit (Durchschnitt) 52.0s
#185	Ring-2.6-1T none	Inclusionai	5	4.8	$0.026	9/22	55.1s
Gesamttests 22 Falsche Tests 13 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 55.1s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.935 Antwortzeit (Durchschnitt) 15.6s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $1.928 Antwortzeit (Durchschnitt) 61.7s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.647 Antwortzeit (Durchschnitt) 11.5s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.643 Antwortzeit (Durchschnitt) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.584 Antwortzeit (Durchschnitt) 9.48s
#34	GPT-5.2 Chat none	OpenAI	6	8.0	$0.604	14/22	7.65s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.604 Antwortzeit (Durchschnitt) 7.65s
#49	DeepSeek V4 Flash high	DeepSeek	6	7.7	$0.041	13/22	49.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 49.7s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)