Modell-Ranking für Anti-KI-Tricks

Sieh, welche KI-Modelle bei Anti-KI-Tricks am besten abschneiden, welche zuverlässig bleiben und wo die größten Unterschiede liegen. Sortieren nach: Antwortzeit (Durchschnitt) ↑.

Angezeigte Modelle

Durchschnittlicher Wert für Anti-KI-Tricks-Score

7.1

Bestes Modell

Mistral Small 4 3.4

Fehlergründe

Mit Fehlergrund Falsche Antwort293 Mit Fehlergrund Anweisungen nicht befolgt33 Mit Fehlergrund Zusätzliche Formatierung20 Mit Fehlergrund API-Fehler14 Mit Fehlergrund Keine Antwort4 Mit Fehlergrund Zeitüberschreitung4

210/210

Rang	Modell	Unternehmen	Anti-KI-Tricks-Score	Punktzahl	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#165	Mistral Small 4 none	Mistral	3.4	5.1	$0.022	0/4	395ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.022 Antwortzeit (Durchschnitt) 395ms
#210	LFM2-24B-A2B none	Liquid	2.5	2.2	$0.001	0/3	471ms
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 471ms
#189	Mercury 2 none	Inception	3.0	4.6	$0.030	0/4	483ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.030 Antwortzeit (Durchschnitt) 483ms
#197	Grok 4.20 none	X AI	4.8	4.1	$0.057	1/4	501ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.057 Antwortzeit (Durchschnitt) 501ms
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/4	534ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 534ms
#118	Gemini 2.5 Flash none	Google	3.0	6.2	$0.017	0/4	582ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.017 Antwortzeit (Durchschnitt) 582ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	4.8	3.2	$0.000	1/4	584ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 584ms
#191	Grok 4.20 Beta none	X AI	4.0	4.4	$0.087	0/4	597ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.087 Antwortzeit (Durchschnitt) 597ms
#192	Laguna M.1 none	Poolside	3.4	4.4	$0.009	0/4	705ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 705ms
#160	Laguna XS 2.1 none	Poolside	5.3	5.3	$0.008	1/4	755ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 755ms
#103	Qwen3.5-27B none	Qwen	4.8	6.5	$0.090	1/4	788ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.090 Antwortzeit (Durchschnitt) 788ms
#201	Granite 4.1 8B none	IBM Granite	4.9	4.0	$0.007	1/4	844ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 844ms
#88	Gemini 3.5 Flash minimal	Google	6.5	6.8	$0.300	2/4	892ms
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.300 Antwortzeit (Durchschnitt) 892ms
#159	GPT-5.6 Luna none	OpenAI	4.8	5.4	$0.142	1/4	901ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.142 Antwortzeit (Durchschnitt) 901ms
#136	GPT-5.4 Mini none	OpenAI	3.1	5.9	$0.095	0/4	929ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.095 Antwortzeit (Durchschnitt) 929ms

Anti-KI-Tricks-Ranking

Modelle filtern

Top-Modelle nach Anti-KI-Tricks-Score

Anti-KI-Tricks-Score vs. Gesamtkosten

Top-Modelle nach Antwortzeit (Durchschnitt)