Ranking für Domänenspezifisch x Falsche Antwort

AI BENCHY Kategoriefehler

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst. Sortieren nach: Fehleranzahl ↑.

Angezeigte Modelle

Gesamtfehler

314

Am stärksten betroffenes Modell

Gemini 3.5 Flash 1

Fehlergründe

Falsche Antwort314 Zeitüberschreitung34 Zusätzliche Formatierung12 API-Fehler6 Keine Antwort5 Anweisungen nicht befolgt1

Kategorien

Domänenspezifisch314 Anti-KI-Tricks245 Programmierung194 Rätsellösen147 Allgemeinwissen130 Befolgung von Anweisungen53 Kombiniert52 Datenanalyse und -extraktion35 Allgemeine Intelligenz32 Werkzeugaufrufe2

Rang	Modell	Unternehmen	Falsche Antwort-Anzahl	Kategorie-Score	Korrekte Tests	Antwortzeit (Durchschnitt)
#2	Gemini 3.5 Flash high	Google	1	7.6	2/3	14.1s
#3	Gemini 3.5 Flash low	Google	1	7.7	2/3	3.39s
#4	Gemini 3.1 Pro Preview medium	Google	1	7.7	2/3	32.7s
#7	Gemini 3.5 Flash medium	Google	1	7.7	2/3	5.24s
#8	Claude Opus 4.7 none	Anthropic	1	7.7	2/3	1.19s
#20	Gemini 3.5 Flash none	Google	1	7.6	2/3	10.6s
#22	Step 3.7 Flash medium	Stepfun	1	7.7	2/3	48.3s
#25	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	5.3	1/3	17.5s
#27	Gemma 4 31B medium	Google	1	7.7	2/3	38.5s
#30	Qwen3.5-27B medium	Qwen	1	5.3	1/3	79.5s
#34	Qwen3.7 Max none	Qwen	1	7.7	2/3	975ms
#42	GPT-5.2 medium	OpenAI	1	5.9	1/3	77.8s
#47	Grok Build 0.1 medium	X AI	1	5.3	1/3	158.0s
#48	Gemini 3 Flash Preview none	Google	1	7.7	2/3	963ms
#49	Qwen3.5-Flash medium	Qwen	1	5.3	1/3	146.5s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten

Domänenspezifisch: Falsche Antwort

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten