Ranking für Allgemeinwissen x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Allgemeinwissen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

133

Am stärksten betroffenes Modell

Qwen3.7 Max 1

Fehlergründe

Falsche Antwort133 API-Fehler13 Keine Antwort8

Kategorien

Domänenspezifisch325 Anti-KI-Tricks250 Programmierung201 Rätsellösen154 Allgemeinwissen133 Befolgung von Anweisungen54 Kombiniert53 Allgemeine Intelligenz36 Datenanalyse und -extraktion35 Werkzeugaufrufe2

133/133

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#144	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	133.6s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 133.6s
#145	GPT-5.4 Nano none	OpenAI	1	3.0	$0.011	0/1	773ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.011 Antwortzeit (Durchschnitt) 773ms
#146	MiniMax M2.5 medium	Minimax	1	3.0	$0.303	0/1	80.8s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.303 Antwortzeit (Durchschnitt) 80.8s
#148	Qwen3 Coder Next medium	Qwen	1	3.0	$0.008	0/1	399ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 399ms
#151	Mercury 2 none	Inception	1	3.0	$0.011	0/1	548ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.011 Antwortzeit (Durchschnitt) 548ms
#157	GLM 4.7 Flash medium	Z.ai	1	3.0	$0.054	0/1	11.1s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 11.1s
#158	Hy3 preview none	Tencent	1	3.0	$0.003	0/1	2.71s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 2.71s
#159	MiMo-V2-Flash none	Xiaomi	1	3.0	$0.025	0/1	1.82s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 1.82s
#160	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	36.1s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 36.1s
#161	Grok 4.1 Fast none	X AI	1	3.0	$0.008	0/1	731ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 731ms
#163	Granite 4.1 8B none	IBM Granite	1	3.0	$0.003	0/1	306ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 306ms
#164	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	47.3s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 47.3s
#168	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	114.1s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 114.1s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Allgemeinwissen: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten