Ranking für Anti-KI-Tricks x API-Fehler

Sieh, welche KI-Modelle bei Anti-KI-Tricks am ehesten auf API-Fehler stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Inkling 1

Fehlergründe

Falsche Antwort293 Anweisungen nicht befolgt33 Zusätzliche Formatierung20 API-Fehler14 Keine Antwort4 Zeitüberschreitung4

Kategorien

Programmierung45 Kombiniert26 Werkzeugaufrufe17 Anti-KI-Tricks14 Datenanalyse und -extraktion14 Allgemeinwissen13 Allgemeine Intelligenz12 Rätsellösen12 Domänenspezifisch7 Befolgung von Anweisungen1

13/13

Rang	Modell	Unternehmen	API-Fehler-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#32	Inkling medium	Thinkingmachines	1	8.7	$0.391	3/4	6.49s
Gesamttests 4 Falsche Tests 1 Gesamtkosten $0.391 Antwortzeit (Durchschnitt) 6.49s
#76	DeepSeek V3.2 medium	DeepSeek	1	8.2	$0.078	3/4	24.2s
Gesamttests 4 Falsche Tests 1 Gesamtkosten $0.078 Antwortzeit (Durchschnitt) 24.2s
#153	Hy3 preview low	Tencent	1	8.3	$0.015	3/4	9.32s
Gesamttests 4 Falsche Tests 1 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 9.32s
#175	Qwen3.6 Plus Preview medium	Qwen	1	8.3	$0.000	3/4	11.7s
Gesamttests 4 Falsche Tests 1 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 11.7s
#135	Hy3 preview high	Tencent	2	6.4	$0.048	2/4	15.1s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 15.1s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.9	$0.077	2/4	2.49s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.077 Antwortzeit (Durchschnitt) 2.49s
#186	Laguna M.1 medium	Poolside	1	6.5	$0.033	2/4	4.87s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.033 Antwortzeit (Durchschnitt) 4.87s
#198	Laguna Xs.2 medium	Poolside	1	6.9	$0.015	2/4	2.68s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 2.68s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	6.4	$0.000	2/4	1.20s
Gesamttests 4 Falsche Tests 2 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 1.20s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	4.8	$0.000	1/4	584ms
Gesamttests 4 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 584ms
#173	DeepSeek V3.2 none	DeepSeek	1	3.2	$0.054	0/4	9.35s
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 9.35s
#192	Laguna M.1 none	Poolside	1	3.4	$0.009	0/4	705ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.009 Antwortzeit (Durchschnitt) 705ms
#205	Laguna Xs.2 none	Poolside	1	3.0	$0.004	0/4	534ms
Gesamttests 4 Falsche Tests 4 Gesamtkosten $0.004 Antwortzeit (Durchschnitt) 534ms

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Anti-KI-Tricks: API-Fehler

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten