Ranking für Allgemeine Intelligenz x Falsche Antwort

Sieh, welche KI-Modelle bei Allgemeine Intelligenz am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Grok 4.5 1

Fehlergründe

Anweisungen nicht befolgt78 Falsche Antwort59 API-Fehler12 Zeitüberschreitung4

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

59/59

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#82	DeepSeek V4 Pro none	DeepSeek	1	5.0	$0.096	0/1	2.05s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 2.05s
#83	GPT-5.6 Sol none	OpenAI	1	6.5	$0.524	0/1	1.52s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.524 Antwortzeit (Durchschnitt) 1.52s
#85	Qwen3.6 Flash medium	Qwen	1	4.8	$0.738	0/1	9.88s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.738 Antwortzeit (Durchschnitt) 9.88s
#86	Step 3.7 Flash high	Stepfun	1	5.5	$1.207	0/1	4.17s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $1.207 Antwortzeit (Durchschnitt) 4.17s
#91	LongCat 2.0 low	Meituan	1	3.4	$0.391	0/1	22.5s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 22.5s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.8	$0.476	0/1	5.16s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.476 Antwortzeit (Durchschnitt) 5.16s
#96	GLM 5.2 none	Z.ai	1	6.1	$0.151	0/1	4.42s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.151 Antwortzeit (Durchschnitt) 4.42s
#97	LongCat 2.0 high	Meituan	1	5.1	$0.469	0/1	17.0s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.469 Antwortzeit (Durchschnitt) 17.0s
#98	Qwen3.6 Max Preview none	Qwen	1	4.3	$0.231	0/1	1.62s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.231 Antwortzeit (Durchschnitt) 1.62s
#102	Laguna XS 2.1 medium	Poolside	1	5.0	$0.068	0/1	4.15s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 4.15s
#105	Gemini 3.1 Flash Lite low	Google	1	4.0	$0.621	0/1	1.37s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.621 Antwortzeit (Durchschnitt) 1.37s
#107	Qwen3.5 Plus 2026-02-15 none	Qwen	1	4.4	$0.073	0/1	2.26s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.073 Antwortzeit (Durchschnitt) 2.26s
#111	LongCat 2.0 none	Meituan	1	5.0	$0.044	0/1	2.76s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 2.76s
#117	GPT-5.6 Luna low	OpenAI	1	5.0	$0.249	0/1	2.25s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.249 Antwortzeit (Durchschnitt) 2.25s
#118	Gemini 2.5 Flash none	Google	1	5.0	$0.017	0/1	615ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 615ms

←

1 2 3 4

→

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Allgemeine Intelligenz: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten