AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Programmierung: Falsche Antwort

Programmierung
Falsche Antwort

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

15

Gesamtfehler

120

Am stärksten betroffenes Modell

Qwen3.6 Flash 2
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#50 Gemini 3.1 Flash Lite low Google 1 6.8 1/2 1.71s
#52 GPT-5.3 Chat none OpenAI 1 6.9 1/2 10.5s
#53 MiMo-V2.5 medium Xiaomi 1 6.9 1/2 64.5s
#55 DeepSeek V4 Flash high DeepSeek 1 6.8 1/2 58.1s
#56 Qwen3.5-Flash medium Qwen 1 4.1 0/2 54.2s
#60 GLM 5V Turbo medium Z.ai 1 6.8 1/2 54.8s
#64 GPT-5.4 Nano medium OpenAI 1 6.8 1/2 21.1s
#65 GPT-5.4 Mini medium OpenAI 1 7.5 1/2 73.3s
#67 MiMo-V2-Flash medium Xiaomi 1 4.1 0/2 7.20s
#68 Seed-2.0-Mini medium Bytedance Seed 1 6.8 1/2 220.5s
#71 DeepSeek V3.2 medium DeepSeek 1 3.9 0/2 185.0s
#72 MiMo-V2-Omni medium Xiaomi 1 3.4 0/2 183.9s
#76 Gemma 4 31B none Google 1 6.8 1/2 14.8s
#78 Gemini 3.1 Flash Lite minimal Google 1 6.8 1/2 951ms
#84 Laguna Xs.2 medium Poolside 1 6.3 0/1 14.4s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten