Ranking für Datenanalyse und -extraktion x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Datenanalyse und -extraktion am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Antwortzeit (Durchschnitt) ↓.

Angezeigte Modelle

Gesamtfehler

Am stärksten betroffenes Modell

Qwen3 Coder Next 1

Fehlergründe

Falsche Antwort35 API-Fehler16 Keine Antwort5 Zusätzliche Formatierung4 Zeitüberschreitung1

Kategorien

Domänenspezifisch314 Anti-KI-Tricks245 Programmierung194 Rätsellösen147 Allgemeinwissen130 Befolgung von Anweisungen53 Kombiniert52 Datenanalyse und -extraktion35 Allgemeine Intelligenz32 Werkzeugaufrufe2

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Korrekte Tests	Antwortzeit (Durchschnitt)
#150	Qwen3 Coder Next medium	Qwen	1	6.5	1/2	81.8s
#96	Ring-2.6-1T none	Inclusionai	1	3.0	0/2	45.9s
#135	Kimi K2.5 none	Moonshot AI	1	7.3	1/2	42.1s
#75	Ring-2.6-1T medium	Inclusionai	1	6.5	1/2	37.4s
#130	MiniMax M2.7 medium	Minimax	1	6.3	1/2	21.9s
#94	GPT-5 Nano medium	OpenAI	2	3.7	0/2	21.4s
#43	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	1/2	18.8s
#119	Cobuddy medium	Baidu	1	6.3	1/2	17.4s
#51	Mimo V2 PRO medium	Xiaomi	1	7.3	1/2	17.2s
#10	Claude Opus 4.8 medium	Anthropic	1	7.1	1/2	12.3s
#133	DeepSeek V3.2 none	DeepSeek	1	6.3	1/2	9.42s
#100	Grok Build 0.1 none	X AI	1	3.8	0/2	9.33s
#138	Ling-2.6-flash none	Inclusionai	1	6.5	1/2	8.48s
#129	MiniMax M2.5 medium	Minimax	2	4.6	0/2	7.48s
#56	MiMo-V2.5 medium	Xiaomi	1	2.7	0/2	6.33s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Datenanalyse und -extraktion: Falsche Antwort

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten