Fehler-Ranking für Falsche Antwort

Sieh, bei welchen KI-Modellen Falsche Antwort besonders häufig auftritt, damit du Zuverlässigkeitsrisiken vor der Auswahl erkennst.

Angezeigte Modelle

Gesamtfehler

1523

Am stärksten betroffenes Modell

Mercury 2 17

Kategorien

In der Kategorie Domänenspezifisch404 In der Kategorie Anti-KI-Tricks290 In der Kategorie Programmierung249 In der Kategorie Rätsellösen193 In der Kategorie Allgemeinwissen165 In der Kategorie Kombiniert67 In der Kategorie Befolgung von Anweisungen57 In der Kategorie Allgemeine Intelligenz55 In der Kategorie Datenanalyse und -extraktion40 In der Kategorie Werkzeugaufrufe3

205/205

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#185	Mercury 2 none	Inception	17	4.6	$0.030	4/22	829ms
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.030 Antwortzeit (Durchschnitt) 829ms
#161	Mistral Small 4 none	Mistral	16	5.1	$0.022	5/22	1.20s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.022 Antwortzeit (Durchschnitt) 1.20s
#151	Kimi K2.5 none	Moonshot AI	15	5.5	$0.127	6/22	19.2s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.127 Antwortzeit (Durchschnitt) 19.2s
#170	GPT-4o-mini none	OpenAI	15	5.0	$0.010	5/22	1.99s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 1.99s
#173	Nemotron 3 Super none	NVIDIA	15	4.9	$0.017	5/22	5.97s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 5.97s
#176	GPT-5.4 Nano none	OpenAI	15	4.8	$0.041	4/22	2.57s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 2.57s
#135	GPT-5.4 none	OpenAI	14	5.8	$0.397	7/22	2.07s
Gesamttests 22 Falsche Tests 15 Gesamtkosten $0.397 Antwortzeit (Durchschnitt) 2.07s
#155	GPT-5.6 Luna none	OpenAI	14	5.4	$0.142	6/22	1.50s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.142 Antwortzeit (Durchschnitt) 1.50s
#156	Laguna XS 2.1 none	Poolside	14	5.3	$0.008	5/22	1.55s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 1.55s
#162	Qwen3 Coder Next none	Qwen	14	5.1	$0.025	5/22	9.12s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 9.12s
#164	MiMo-V2.5 none	Xiaomi	14	5.1	$0.025	5/22	4.62s
Gesamttests 22 Falsche Tests 17 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 4.62s
#165	Qwen3.5-9B none	Qwen	14	5.1	$0.021	4/22	19.2s
Gesamttests 22 Falsche Tests 18 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 19.2s
#112	Seed-2.0-Lite none	Bytedance Seed	13	6.2	$0.066	8/22	4.40s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.066 Antwortzeit (Durchschnitt) 4.40s
#121	Qwen3.5-Flash none	Qwen	13	6.1	$0.073	8/22	25.3s
Gesamttests 22 Falsche Tests 14 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 25.3s
#132	GPT-5.4 Mini none	OpenAI	13	5.9	$0.095	6/22	1.53s
Gesamttests 22 Falsche Tests 16 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 1.53s

Falsche Antwort-Fehler

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)