Ranking für Domänenspezifisch x API-Fehler

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf API-Fehler stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Fehlergründe

Falsche Antwort412 Zeitüberschreitung43 Zusätzliche Formatierung17 Keine Antwort8 API-Fehler7 Anweisungen nicht befolgt1

Kategorien

Programmierung45 Kombiniert26 Werkzeugaufrufe17 Anti-KI-Tricks14 Datenanalyse und -extraktion14 Allgemeinwissen13 Allgemeine Intelligenz12 Rätsellösen12 Domänenspezifisch7 Befolgung von Anweisungen1

7/7

Rang	Modell	Unternehmen	API-Fehler-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#27	Muse Spark 1.1 high	Meta	1	3.5	$1.694	0/3	67.4s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $1.694 Antwortzeit (Durchschnitt) 67.4s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	2.9	$0.041	0/3	4.99s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.041 Antwortzeit (Durchschnitt) 4.99s
#167	Mistral Small 4 medium	Mistral	1	5.3	$0.096	1/3	6.11s
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 6.11s
#173	DeepSeek V3.2 none	DeepSeek	1	2.9	$0.054	0/3	4.17s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.054 Antwortzeit (Durchschnitt) 4.17s
#175	Qwen3.6 Plus Preview medium	Qwen	1	3.0	$0.000	0/3	22.1s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.000 Antwortzeit (Durchschnitt) 22.1s
#199	Hy3 preview none	Tencent	1	3.6	$0.003	0/3	17.6s
Gesamttests 3 Falsche Tests 3 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 17.6s
#210	LFM2-24B-A2B none	Liquid	1	5.9	$0.001	1/3	287ms
Gesamttests 3 Falsche Tests 2 Gesamtkosten $0.001 Antwortzeit (Durchschnitt) 287ms

Modelle filtern