Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Mercury 2 17

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#69	Gemini 3.1 Flash Lite medium	Google	7	7.3	$0.117	13/22	4.27s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.117 Antwortzeit (Durchschnitt) 4.27s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Gesamttests 21 Falsche Tests 10 Gesamtkosten $0.457 Antwortzeit (Durchschnitt) 23.1s
#110	Gemini 3.1 Flash Lite Preview low	Google	7	6.5	$0.646	13/22	16.7s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.646 Antwortzeit (Durchschnitt) 16.7s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 1.58s
#118	Claude Sonnet 5 none	Anthropic	7	6.3	$0.548	8/22	6.04s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 6.04s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	7	5.4	$0.041	7/22	10.1s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 10.1s
#179	DeepSeek V3.2 none	DeepSeek	7	5.0	$0.054	6/22	18.3s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 18.3s
#196	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.340 Antwortzeit (Durchschnitt) 68.3s
#208	Grok Build 0.1 none	X AI	7	4.0	$0.547	7/19	28.7s
Gesamttests 19 Falsche Tests 12 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 28.7s
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7	3.4	$0.000	4/19	17.1s
Gesamttests 19 Falsche Tests 15 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 17.1s
#23	Grok 4.5 low	X AI	6	8.4	$0.935	16/22	15.6s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $0.935 Antwortzeit (Durchschnitt) 15.6s
#25	Grok 4.5 medium	X AI	6	8.3	$1.928	16/22	61.7s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $1.928 Antwortzeit (Durchschnitt) 61.7s
#27	Muse Spark 1.1 low	Meta	6	8.3	$0.647	13/22	11.5s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.647 Antwortzeit (Durchschnitt) 11.5s
#28	Gemini 2.5 Flash medium	Google	6	8.2	$0.643	15/22	21.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.643 Antwortzeit (Durchschnitt) 21.2s
#31	Gemini 3.5 Flash-Lite high	Google	6	8.1	$0.584	14/22	9.48s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.584 Antwortzeit (Durchschnitt) 9.48s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)