Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Step 3.5 Flash 4

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.738 Antwortzeit (Durchschnitt) 44.7s
#41	Qwen3.6 Plus medium	Qwen	5	7.8	$0.405	15/22	43.1s
Gesamttests 22 Falsche Tests 7 Gesamtkosten $0.405 Antwortzeit (Durchschnitt) 43.1s
#178	MiniMax M2.7 medium	Minimax	6	5.0	$0.163	5/22	41.3s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.163 Antwortzeit (Durchschnitt) 41.3s
#140	Mimo V2 Omni medium	Xiaomi	5	5.9	$0.683	10/21	41.2s
Gesamttests 21 Falsche Tests 11 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 41.2s
#11	Qwen3.7 Max medium	Qwen	3	9.2	$1.116	18/22	40.6s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $1.116 Antwortzeit (Durchschnitt) 40.6s
#194	Cobuddy medium	Baidu	9	4.7	$0.000	7/21	39.9s
Gesamttests 21 Falsche Tests 14 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 39.9s
#215	Step 3.5 Flash none	Stepfun	1	2.3	$0.020	6/12	39.0s
Gesamttests 12 Falsche Tests 6 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 39.0s
#13	GPT-5.5 medium	OpenAI	4	9.0	$4.137	18/22	38.4s
Gesamttests 22 Falsche Tests 4 Gesamtkosten $4.137 Antwortzeit (Durchschnitt) 38.4s
#156	DeepSeek V4 Flash none	DeepSeek	12	5.6	$0.042	5/22	36.8s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.042 Antwortzeit (Durchschnitt) 36.8s
#47	Claude Opus 4.6 medium	Anthropic	3	7.7	$3.059	13/22	34.3s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $3.059 Antwortzeit (Durchschnitt) 34.3s
#88	MiMo-V2.5-Pro medium	Xiaomi	3	6.9	$0.187	12/22	33.9s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.187 Antwortzeit (Durchschnitt) 33.9s
#46	GLM 5 medium	Z.ai	3	7.7	$0.307	15/21	33.5s
Gesamttests 21 Falsche Tests 6 Gesamtkosten $0.307 Antwortzeit (Durchschnitt) 33.5s
#55	Nemotron 3 Ultra medium	NVIDIA	7	7.5	$0.774	13/22	32.2s
Gesamttests 22 Falsche Tests 9 Gesamtkosten $0.774 Antwortzeit (Durchschnitt) 32.2s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.082 Antwortzeit (Durchschnitt) 32.2s
#30	Muse Spark 1.1 high	Meta	4	8.1	$1.694	12/22	31.5s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $1.694 Antwortzeit (Durchschnitt) 31.5s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)