Ranking für Anti-KI-Tricks x Falsche Antwort

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Gesamtfehler

293

Am stärksten betroffenes Modell

Mistral Small 4 4

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Domänenspezifisch412 Anti-KI-Tricks293 Programmierung252 Rätsellösen201 Allgemeinwissen168 Kombiniert68 Befolgung von Anweisungen61 Allgemeine Intelligenz59 Datenanalyse und -extraktion41 Werkzeugaufrufe3

140/140

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#165	Mistral Small 4 none	Mistral	4	3.4	$0.022	0/4	395ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.022 Antwortzeit (Durchschnitt) 395ms
#210	LFM2-24B-A2B none	Liquid	3	2.5	$0.001	0/3	471ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 471ms
#189	Mercury 2 none	Inception	4	3.0	$0.030	0/4	483ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.030 Antwortzeit (Durchschnitt) 483ms
#197	Grok 4.20 none	X AI	3	4.8	$0.057	1/4	501ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 501ms
#205	Laguna Xs.2 none	Poolside	2	3.0	$0.004	0/4	534ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 534ms
#118	Gemini 2.5 Flash none	Google	4	3.0	$0.017	0/4	582ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 582ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	4.8	$0.000	1/4	584ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 584ms
#191	Grok 4.20 Beta none	X AI	4	4.0	$0.087	0/4	597ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 597ms
#192	Laguna M.1 none	Poolside	3	3.4	$0.009	0/4	705ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 705ms
#160	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 755ms
#103	Qwen3.5-27B none	Qwen	3	4.8	$0.090	1/4	788ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.090 Antwortzeit (Durchschnitt) 788ms
#201	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 844ms
#88	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.300 Antwortzeit (Durchschnitt) 892ms
#159	GPT-5.6 Luna none	OpenAI	3	4.8	$0.142	1/4	901ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.142 Antwortzeit (Durchschnitt) 901ms
#136	GPT-5.4 Mini none	OpenAI	4	3.1	$0.095	0/4	929ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 929ms

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten