AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Kombiniert: Falsche Antwort

Kombiniert
Falsche Antwort

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

15

Gesamtfehler

52

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#125 GPT-5.4 none OpenAI 1 3.0 0/1 2.89s
#131 Qwen3.5-122B-A10B none Qwen 1 3.0 0/1 46.0s
#132 Mistral Small 4 medium Mistral 1 3.0 0/1 25.3s
#134 GLM 5 Turbo none Z.ai 1 3.0 0/1 4.89s
#135 Kimi K2.5 none Moonshot AI 1 2.8 0/1 19.2s
#136 Elephant Alpha medium Openrouter 1 3.0 0/1 3.70s
#137 Elephant Alpha none Openrouter 1 3.0 0/1 3.81s
#140 Qwen3 Coder Next none Qwen 1 3.0 0/1 45.1s
#141 Nemotron 3 Super none NVIDIA 1 3.0 0/1 16.4s
#142 Mistral Small 4 none Mistral 1 3.0 0/1 1.72s
#143 MiMo-V2.5 none Xiaomi 1 3.0 0/1 2.36s
#144 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.52s
#146 Laguna Xs.2 none Poolside 1 3.0 0/1 2.01s
#147 GPT-4o-mini none OpenAI 1 3.0 0/1 7.58s
#148 GPT-5.4 Nano none OpenAI 1 3.0 0/1 3.84s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten