AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Programmierung: Falsche Antwort

Programmierung
Falsche Antwort

Sieh, welche KI-Modelle bei Programmierung am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

15

Gesamtfehler

120

Am stärksten betroffenes Modell

Qwen3.6 Flash 2
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#85 Gemini 3.1 Flash Lite none Google 1 6.8 1/2 1.13s
#86 GPT-5.5 none OpenAI 1 6.8 1/2 1.52s
#90 Mercury 2 medium Inception 1 7.2 1/2 2.29s
#91 Gemma 4 26B A4B none Google 1 4.1 0/2 3.83s
#92 Gemini 2.5 Flash none Google 1 6.8 1/2 810ms
#93 MiMo-V2-Omni none Xiaomi 1 5.1 0/2 2.75s
#97 Qwen3.5-Flash none Qwen 1 6.8 1/2 993ms
#98 GLM 5V Turbo none Z.ai 1 6.8 1/2 3.77s
#99 Seed-2.0-Lite none Bytedance Seed 1 6.8 1/2 2.95s
#101 Qwen3.5 Plus 2026-04-20 none Qwen 1 4.4 0/2 2.08s
#102 Qwen3.5-35B-A3B none Qwen 1 6.8 1/2 1.72s
#103 Qwen3.5-27B none Qwen 1 7.3 1/2 1.98s
#104 Qwen3.6 27B none Qwen 1 6.8 1/2 5.75s
#105 Cobuddy medium Baidu 1 4.1 0/2 79.2s
#107 MiMo-V2-Pro none Xiaomi 1 6.8 1/2 2.65s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten