Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

1558

Am stärksten betroffenes Modell

Step 3.5 Flash 4

Kategorien

In der Kategorie Domänenspezifisch412 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung252 In der Kategorie Rätsellösen201 In der Kategorie Allgemeinwissen168 In der Kategorie Kombiniert68 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Allgemeine Intelligenz59 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

209/209

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#52	Kimi K2.7 Code medium	Moonshot AI	5	7.5	$0.751	12/22	84.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.751 Antwortzeit (Durchschnitt) 84.2s
#204	Qwen3.5-9B medium	Qwen	2	3.8	$0.036	3/22	82.2s
Gesamttests 22 Falsche Tests 19 Gesamtkosten $0.036 Antwortzeit (Durchschnitt) 82.2s
#46	DeepSeek V4 Pro high	DeepSeek	6	7.7	$0.200	10/22	79.1s
Gesamttests 22 Falsche Tests 12 Gesamtkosten $0.200 Antwortzeit (Durchschnitt) 79.1s
#12	Grok 4.5 high	X AI	2	8.9	$1.707	17/22	76.5s
Gesamttests 22 Falsche Tests 5 Gesamtkosten $1.707 Antwortzeit (Durchschnitt) 76.5s
#110	Gemma 4 31B medium	Google	2	6.3	$0.163	14/22	75.4s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 75.4s
#47	MiniMax M3 medium	Minimax	3	7.6	$0.286	12/22	75.0s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.286 Antwortzeit (Durchschnitt) 75.0s
#108	Ring-2.6-1T medium	Inclusionai	6	6.3	$0.103	11/22	68.7s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.103 Antwortzeit (Durchschnitt) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	5	7.0	$0.078	11/22	68.6s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 68.6s
#190	MiniMax M2.5 medium	Minimax	7	4.6	$0.340	5/22	68.3s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.340 Antwortzeit (Durchschnitt) 68.3s
#163	Gemini 3.1 Flash Lite Preview high	Google	2	5.3	$2.310	13/16	68.1s
Gesamttests 16 Falsche Tests 3 Gesamtkosten $2.310 Antwortzeit (Durchschnitt) 68.1s
#19	Qwen3.6 Max Preview medium	Qwen	5	8.4	$1.143	16/22	67.5s
Gesamttests 22 Falsche Tests 6 Gesamtkosten $1.143 Antwortzeit (Durchschnitt) 67.5s
#86	Step 3.7 Flash high	Stepfun	6	6.9	$1.207	11/22	64.7s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $1.207 Antwortzeit (Durchschnitt) 64.7s
#72	Qwen3.5-122B-A10B medium	Qwen	5	7.1	$1.046	14/22	64.2s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $1.046 Antwortzeit (Durchschnitt) 64.2s
#28	Inkling high	Thinkingmachines	4	8.0	$1.006	15/22	64.2s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $1.006 Antwortzeit (Durchschnitt) 64.2s
#31	GLM 5.2 high	Z.ai	3	8.0	$0.970	14/22	62.7s
Gesamttests 22 Falsche Tests 8 Gesamtkosten $0.970 Antwortzeit (Durchschnitt) 62.7s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)