Ranking für Allgemeinwissen x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Allgemeinwissen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

133

Am stärksten betroffenes Modell

Qwen3.7 Max 1

Fehlergründe

Falsche Antwort133 API-Fehler13 Keine Antwort8

Kategorien

Domänenspezifisch325 Anti-KI-Tricks250 Programmierung201 Rätsellösen154 Allgemeinwissen133 Befolgung von Anweisungen54 Kombiniert53 Allgemeine Intelligenz36 Datenanalyse und -extraktion35 Werkzeugaufrufe2

133/133

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#93	Gemini 2.5 Flash none	Google	1	3.0	$0.016	0/1	1.15s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 1.15s
#94	Gemini 3.1 Flash Lite minimal	Google	1	3.0	$0.013	0/1	724ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 724ms
#96	Gemini 3.1 Flash Lite none	Google	1	3.0	$0.013	0/1	733ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.013 Antwortzeit (Durchschnitt) 733ms
#97	Qwen3.5-Flash none	Qwen	1	3.0	$0.005	0/1	588ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.005 Antwortzeit (Durchschnitt) 588ms
#98	Gemma 4 31B none	Google	1	3.0	$0.004	0/1	1.25s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 1.25s
#99	Nemotron 3 Ultra 550b A55b none	NVIDIA	1	3.0	$0.027	0/1	1.83s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 1.83s
#100	Qwen3.6 Max Preview none	Qwen	1	3.0	$0.075	0/1	1.97s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.075 Antwortzeit (Durchschnitt) 1.97s
#101	GLM 5 none	Z.ai	1	3.0	$0.027	0/1	3.62s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 3.62s
#102	Qwen3.6 Flash none	Qwen	1	3.0	$0.015	0/1	649ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 649ms
#103	Qwen3.5-35B-A3B none	Qwen	1	3.0	$0.012	0/1	493ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.012 Antwortzeit (Durchschnitt) 493ms
#104	Qwen3.5-27B none	Qwen	1	3.0	$0.015	0/1	599ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 599ms
#105	GLM 5V Turbo none	Z.ai	1	3.0	$0.052	0/1	2.23s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.052 Antwortzeit (Durchschnitt) 2.23s
#106	Qwen3.5 Plus 2026-02-15 none	Qwen	1	3.0	$0.016	0/1	1.11s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.016 Antwortzeit (Durchschnitt) 1.11s
#108	Owl Alpha medium	Openrouter	1	3.0	$0.000	0/1	2.38s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 2.38s
#109	Mimo V2 PRO none	Xiaomi	1	3.0	$0.045	0/1	1.63s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.045 Antwortzeit (Durchschnitt) 1.63s

←

1 5 6 7 9

→

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Allgemeinwissen: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten