AI BENCHY
Advertise here

AI BENCHY Kategoriefehler

Kombiniert: Falsche Antwort

Kombiniert
Falsche Antwort

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

7

Gesamtfehler

52

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#150 Qwen3 Coder Next medium Qwen 1 3.0 0/1 4.28s
#151 Trinity Large Preview none Arcee AI 1 3.0 0/1 8.91s
#152 MiMo-V2-Flash none Xiaomi 1 3.0 0/1 2.87s
#155 Mercury 2 none Inception 1 3.0 0/1 606ms
#156 Hy3 preview none Tencent 1 3.0 0/1 35.8s
#157 Grok 4.1 Fast none X AI 1 3.0 0/1 3.33s
#159 Ling-2.6-1T none Inclusionai 1 3.0 0/1 23.5s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten