Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Gesamtfehler

1585

Am stärksten betroffenes Modell

Gemini 3.6 Flash 1

Kategorien

In der Kategorie Domänenspezifisch421 In der Kategorie Anti-KI-Tricks293 In der Kategorie Programmierung259 In der Kategorie Rätsellösen204 In der Kategorie Allgemeinwissen172 In der Kategorie Kombiniert69 In der Kategorie Allgemeine Intelligenz62 In der Kategorie Befolgung von Anweisungen61 In der Kategorie Datenanalyse und -extraktion41 In der Kategorie Werkzeugaufrufe3

215/215

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#89	Qwen3.6 Flash medium	Qwen	8	6.9	$0.738	12/22	44.7s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.738 Antwortzeit (Durchschnitt) 44.7s
#95	Gemini 3.5 Flash-Lite low	Google	9	6.7	$0.145	12/22	2.25s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.145 Antwortzeit (Durchschnitt) 2.25s
#101	GLM 5.2 none	Z.ai	8	6.6	$0.128	12/22	9.34s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.128 Antwortzeit (Durchschnitt) 9.34s
#103	Qwen3.6 Max Preview none	Qwen	10	6.6	$0.231	12/22	7.82s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.231 Antwortzeit (Durchschnitt) 7.82s
#104	Gemini 3.5 Flash-Lite medium	Google	9	6.5	$0.369	12/22	6.01s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.369 Antwortzeit (Durchschnitt) 6.01s
#107	MiMo-V2.5 medium	Xiaomi	5	6.5	$0.082	12/22	32.2s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.082 Antwortzeit (Durchschnitt) 32.2s
#111	Gemini 3.1 Flash Lite low	Google	9	6.5	$0.621	12/22	16.3s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.621 Antwortzeit (Durchschnitt) 16.3s
#112	Gemini 3.1 Flash Lite Preview none	Google	7	6.4	$0.052	12/22	1.58s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 1.58s
#120	Qwen3.5-Flash medium	Qwen	4	6.2	$0.139	12/22	84.8s
Gesamttests 22 Falsche Tests 10 Gesamtkosten $0.139 Antwortzeit (Durchschnitt) 84.8s
#98	GLM 5V Turbo medium	Z.ai	7	6.7	$0.457	11/21	23.1s
Gesamttests 21 Falsche Tests 10 Gesamtkosten $0.457 Antwortzeit (Durchschnitt) 23.1s
#136	Step 3.5 Flash medium	Stepfun	4	6.0	$0.108	11/21	174.2s
Gesamttests 21 Falsche Tests 10 Gesamtkosten $0.108 Antwortzeit (Durchschnitt) 174.2s
#141	Hy3 preview high	Tencent	3	5.9	$0.048	11/21	56.6s
Gesamttests 21 Falsche Tests 10 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 56.6s
#66	KAT-Coder-Pro V2.5 low	Kwaipilot	10	7.4	$0.387	11/22	19.5s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.387 Antwortzeit (Durchschnitt) 19.5s
#73	KAT-Coder-Pro V2.5 high	Kwaipilot	10	7.2	$0.482	11/22	20.8s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.482 Antwortzeit (Durchschnitt) 20.8s
#75	Qwen3.7 Plus none	Qwen	10	7.2	$0.106	11/22	12.1s
Gesamttests 22 Falsche Tests 11 Gesamtkosten $0.106 Antwortzeit (Durchschnitt) 12.1s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)