Ranking für Anti-KI-Tricks x Falsche Antwort

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

293

Am stärksten betroffenes Modell

Seed-2.0-Lite 4

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Domänenspezifisch421 Anti-KI-Tricks293 Programmierung259 Rätsellösen204 Allgemeinwissen172 Kombiniert69 Allgemeine Intelligenz62 Befolgung von Anweisungen61 Datenanalyse und -extraktion41 Werkzeugaufrufe3

140/140

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#91	GPT-5.5 none	OpenAI	2	6.9	$0.544	2/4	1.31s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.544 Antwortzeit (Durchschnitt) 1.31s
#92	Gemini 3.5 Flash minimal	Google	2	6.5	$0.300	2/4	892ms
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.300 Antwortzeit (Durchschnitt) 892ms
#108	Laguna XS 2.1 medium	Poolside	2	4.8	$0.068	1/4	42.0s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.068 Antwortzeit (Durchschnitt) 42.0s
#111	Gemini 3.1 Flash Lite low	Google	2	7.3	$0.621	2/4	1.84s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.621 Antwortzeit (Durchschnitt) 1.84s
#121	Gemma 4 31B none	Google	2	6.5	$0.021	2/4	1.85s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.021 Antwortzeit (Durchschnitt) 1.85s
#128	Gemini 3.1 Flash Lite none	Google	2	7.5	$0.046	2/4	1.07s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.046 Antwortzeit (Durchschnitt) 1.07s
#134	GPT-5 Nano medium	OpenAI	2	6.5	$0.114	2/4	25.5s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.114 Antwortzeit (Durchschnitt) 25.5s
#164	KAT-Coder-Air V2.5 low	Kwaipilot	2	7.3	$0.041	2/4	3.50s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 3.50s
#166	Laguna XS 2.1 none	Poolside	2	5.3	$0.008	1/4	755ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.008 Antwortzeit (Durchschnitt) 755ms
#172	Qwen3 Coder Next none	Qwen	2	3.6	$0.025	0/4	3.31s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 3.31s
#177	North Mini Code none	Cohere	2	3.0	$0.000	0/4	22.5s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 22.5s
#190	Hunter Alpha medium	OpenRouter	2	7.3	$0.000	2/4	4.75s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 4.75s
#200	GLM 4.7 Flash medium	Z.ai	2	4.7	$0.166	1/4	15.0s
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.166 Antwortzeit (Durchschnitt) 15.0s
#201	Elephant Alpha medium	Openrouter	2	6.6	$0.000	2/4	1.19s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.19s
#207	Granite 4.1 8B none	IBM Granite	2	4.9	$0.007	1/4	844ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.007 Antwortzeit (Durchschnitt) 844ms

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: Falsche Antwort

Modelle filtern

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten