Ranking für Allgemeinwissen x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Allgemeinwissen am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

133

Am stärksten betroffenes Modell

Qwen3.7 Max 1

Fehlergründe

Falsche Antwort133 API-Fehler13 Keine Antwort8

Kategorien

Domänenspezifisch325 Anti-KI-Tricks250 Programmierung201 Rätsellösen154 Allgemeinwissen133 Befolgung von Anweisungen54 Kombiniert53 Allgemeine Intelligenz36 Datenanalyse und -extraktion35 Werkzeugaufrufe2

133/133

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#3	Qwen3.7 Max medium	Qwen	1	3.0	$0.523	0/1	33.4s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.523 Antwortzeit (Durchschnitt) 33.4s
#4	GPT-5.5 low	OpenAI	1	3.0	$0.907	0/1	10.1s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.907 Antwortzeit (Durchschnitt) 10.1s
#9	GPT-5.5 medium	OpenAI	1	2.8	$3.679	0/1	37.9s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $3.679 Antwortzeit (Durchschnitt) 37.9s
#10	GPT-5.3-Codex medium	OpenAI	1	2.8	$0.740	0/1	14.4s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.740 Antwortzeit (Durchschnitt) 14.4s
#11	Qwen3.6 Max Preview medium	Qwen	1	3.0	$0.960	0/1	60.6s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.960 Antwortzeit (Durchschnitt) 60.6s
#13	Claude Opus 4.7 medium	Anthropic	1	3.0	$0.679	0/1	2.25s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.679 Antwortzeit (Durchschnitt) 2.25s
#15	GLM 5 medium	Z.ai	1	3.0	$0.228	0/1	67.4s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.228 Antwortzeit (Durchschnitt) 67.4s
#16	GPT-5 Mini medium	OpenAI	1	3.0	$0.159	0/1	9.99s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.159 Antwortzeit (Durchschnitt) 9.99s
#17	GPT-5.4 medium	OpenAI	1	3.0	$1.210	0/1	14.0s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $1.210 Antwortzeit (Durchschnitt) 14.0s
#18	Seed-2.0-Lite medium	Bytedance Seed	1	3.0	$0.175	0/1	48.3s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.175 Antwortzeit (Durchschnitt) 48.3s
#19	GPT-5.2 Chat none	OpenAI	1	3.0	$0.393	0/1	6.89s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.393 Antwortzeit (Durchschnitt) 6.89s
#21	GLM 5 Turbo medium	Z.ai	1	3.0	$0.323	0/1	40.2s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.323 Antwortzeit (Durchschnitt) 40.2s
#22	GPT-5.2 medium	OpenAI	1	3.0	$0.548	0/1	28.2s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 28.2s
#23	DeepSeek V4 Flash high	DeepSeek	1	3.0	$0.027	0/1	54.5s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.027 Antwortzeit (Durchschnitt) 54.5s
#24	Gemini 2.5 Flash medium	Google	1	3.0	$0.379	0/1	2.76s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.379 Antwortzeit (Durchschnitt) 2.76s

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Allgemeinwissen: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten