Ranking für Allgemeinwissen x Keine Antwort

Sieh, welche KI-Modelle bei Allgemeinwissen am ehesten auf Keine Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↑.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Grok 4.5 1

Fehlergründe

Falsche Antwort168 API-Fehler13 Keine Antwort13

Kategorien

Kombiniert29 Programmierung18 Allgemeinwissen13 Datenanalyse und -extraktion8 Domänenspezifisch8 Anti-KI-Tricks4 Rätsellösen3 Befolgung von Anweisungen2 Werkzeugaufrufe2

13/13

Rang	Modell	Unternehmen	Keine Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#12	Grok 4.5 high	X AI	1	3.0	$1.707	0/1	60.6s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $1.707 Antwortzeit (Durchschnitt) 60.6s
#14	Claude Opus 4.8 medium	Anthropic	1	3.0	$1.931	0/1	6.14s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $1.931 Antwortzeit (Durchschnitt) 6.14s
#17	Claude Fable 5 medium	Anthropic	1	3.0	$3.478	0/1	25.6s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $3.478 Antwortzeit (Durchschnitt) 25.6s
#29	Step 3.7 Flash medium	Stepfun	1	3.0	$0.515	0/1	114.0s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.515 Antwortzeit (Durchschnitt) 114.0s
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	19.7s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $3.112 Antwortzeit (Durchschnitt) 19.7s
#38	GLM 5.2 medium	Z.ai	1	3.0	$0.222	0/1	34.2s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.222 Antwortzeit (Durchschnitt) 34.2s
#41	Claude Opus 4.8 low	Anthropic	1	3.0	$2.077	0/1	5.48s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $2.077 Antwortzeit (Durchschnitt) 5.48s
#47	MiniMax M3 medium	Minimax	1	3.0	$0.286	0/1	100.8s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.286 Antwortzeit (Durchschnitt) 100.8s
#66	Claude Opus 4.8 none	Anthropic	1	3.0	$1.166	0/1	3.41s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $1.166 Antwortzeit (Durchschnitt) 3.41s
#67	Step 3.7 Flash low	Stepfun	1	3.0	$0.454	0/1	124.8s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.454 Antwortzeit (Durchschnitt) 124.8s
#86	Step 3.7 Flash high	Stepfun	1	3.0	$1.207	0/1	149.3s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $1.207 Antwortzeit (Durchschnitt) 149.3s
#97	LongCat 2.0 high	Meituan	1	3.0	$0.469	0/1	99.4s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 99.4s
#112	Claude Sonnet 5 none	Anthropic	1	3.0	$0.548	0/1	4.31s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.548 Antwortzeit (Durchschnitt) 4.31s

Modelle filtern

Top-Modelle nach Keine Antwort-Anzahl

Keine Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Allgemeinwissen: Keine Antwort

Modelle filtern

Top-Modelle nach Keine Antwort-Anzahl

Keine Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten