Ranking für Datenanalyse und -extraktion x API-Fehler

Sieh, welche KI-Modelle bei Datenanalyse und -extraktion am ehesten auf API-Fehler stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Korrekte Tests ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Gemini 3.5 Flash 1

Fehlergründe

Falsche Antwort41 API-Fehler14 Keine Antwort8 Zusätzliche Formatierung6 Zeitüberschreitung1

Kategorien

Programmierung45 Kombiniert26 Werkzeugaufrufe17 Anti-KI-Tricks14 Datenanalyse und -extraktion14 Allgemeinwissen13 Allgemeine Intelligenz12 Rätsellösen12 Domänenspezifisch7 Befolgung von Anweisungen1

14/14

Rang	Modell	Unternehmen	API-Fehler-Anzahl	Kategorie-Score	Gesamtkosten	Korrekte Tests	Antwortzeit (Durchschnitt)
#79	Gemini 3.5 Flash none	Google	1	6.5	$1.079	1/2	8.10s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $1.079 Antwortzeit (Durchschnitt) 8.10s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	1/2	5.25s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.018 Antwortzeit (Durchschnitt) 5.25s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.5	$0.043	1/2	0ms
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.043 Antwortzeit (Durchschnitt) 0ms
#114	Qwen3.5-Flash medium	Qwen	1	7.3	$0.139	1/2	57.0s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.139 Antwortzeit (Durchschnitt) 57.0s
#119	Qwen3.5-35B-A3B medium	Qwen	1	7.3	$0.837	1/2	59.3s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.837 Antwortzeit (Durchschnitt) 59.3s
#135	Hy3 preview high	Tencent	1	6.5	$0.048	1/2	12.1s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.048 Antwortzeit (Durchschnitt) 12.1s
#153	Hy3 preview low	Tencent	1	6.5	$0.015	1/2	5.85s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.015 Antwortzeit (Durchschnitt) 5.85s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.23s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.096 Antwortzeit (Durchschnitt) 1.23s
#199	Hy3 preview none	Tencent	1	6.5	$0.003	1/2	2.85s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.003 Antwortzeit (Durchschnitt) 2.85s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	1/2	7.12s
Gesamttests 2 Falsche Tests 1 Gesamtkosten $0.010 Antwortzeit (Durchschnitt) 7.12s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.026 Antwortzeit (Durchschnitt) 45.9s
#200	MiMo-V2-Flash none	Xiaomi	1	2.9	$0.025	0/2	19.7s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.025 Antwortzeit (Durchschnitt) 19.7s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
Gesamttests 2 Falsche Tests 2 Gesamtkosten $0.547 Antwortzeit (Durchschnitt) 9.33s
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
Gesamttests 1 Falsche Tests 1 Gesamtkosten $0.020 Antwortzeit (Durchschnitt) 0ms

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Datenanalyse und -extraktion: API-Fehler

Modelle filtern

Top-Modelle nach API-Fehler-Anzahl

API-Fehler-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten