Ranking für Allgemeine Intelligenz x Falsche Antwort

Sieh, welche KI-Modelle bei Allgemeine Intelligenz am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Grok 4.5 1

Fehlergründe

Anweisungen nicht befolgt78 Falsche Antwort59 API-Fehler12 Zeitüberschreitung4

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

59/59

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#122	Gemini 3.1 Flash Lite none	Google	1	4.0	$0.046	0/1	992ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.046 Antwortzeit (Durchschnitt) 992ms
#129	Nemotron 3 Ultra none	NVIDIA	1	5.0	$0.095	0/1	13.5s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 13.5s
#132	GPT-5.6 Terra none	OpenAI	1	5.0	$0.349	0/1	1.03s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.349 Antwortzeit (Durchschnitt) 1.03s
#134	Mimo V2 Omni medium	Xiaomi	1	5.4	$0.683	0/1	3.61s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.683 Antwortzeit (Durchschnitt) 3.61s
#137	North Mini Code medium	Cohere	1	5.1	$0.000	0/1	25.1s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 25.1s
#139	GPT-5.4 none	OpenAI	1	4.4	$0.397	0/1	1.78s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.397 Antwortzeit (Durchschnitt) 1.78s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	5.1	$0.077	0/1	7.10s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.077 Antwortzeit (Durchschnitt) 7.10s
#150	DeepSeek V4 Flash none	DeepSeek	1	4.2	$0.044	0/1	23.7s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.044 Antwortzeit (Durchschnitt) 23.7s
#151	GLM 5.1 none	Z.ai	1	5.0	$0.164	0/1	790ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.164 Antwortzeit (Durchschnitt) 790ms
#154	MiMo-V2.5-Pro none	Xiaomi	1	4.0	$0.068	0/1	2.58s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 2.58s
#157	Mimo V2 Omni none	Xiaomi	1	4.1	$0.021	0/1	2.33s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 2.33s
#159	GPT-5.6 Luna none	OpenAI	1	5.0	$0.142	0/1	1.00s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.142 Antwortzeit (Durchschnitt) 1.00s
#160	Laguna XS 2.1 none	Poolside	1	5.0	$0.008	0/1	529ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 529ms
#161	Qwen3.6 35B A3B none	Qwen	1	4.4	$0.061	0/1	3.51s
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.061 Antwortzeit (Durchschnitt) 3.51s
#164	Inkling none	Thinkingmachines	1	5.0	$0.147	0/1	859ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.147 Antwortzeit (Durchschnitt) 859ms

←

1 2 3 4

→

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Allgemeine Intelligenz: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten