AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Domänenspezifisch: Falsche Antwort

Domänenspezifisch
Falsche Antwort

Sieh, welche KI-Modelle bei Domänenspezifisch am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

15

Gesamtfehler

314

Am stärksten betroffenes Modell

Qwen3.6 Max Preview 3
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#82 Hy3 preview high Tencent 2 5.3 1/3 109.0s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 2.9 0/3 24.7s
#89 Hy3 preview low Tencent 2 5.9 1/3 40.4s
#92 Laguna M.1 medium Poolside 2 5.3 1/3 24.1s
#93 Qwen3.6 Plus Preview medium Qwen 2 3.0 0/3 22.1s
#95 Qwen3.5 Plus 2026-02-15 none Qwen 2 5.3 1/3 1.17s
#96 Ring-2.6-1T none Inclusionai 2 5.3 1/3 73.4s
#97 Gemini 2.5 Flash none Google 2 5.9 1/3 495ms
#100 Grok Build 0.1 none X AI 2 3.6 0/3 103.7s
#101 Mimo V2 Omni none Xiaomi 2 5.3 1/3 2.10s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 2 5.3 1/3 698ms
#105 Nemotron 3 Super medium NVIDIA 2 2.9 0/3 16.2s
#107 Laguna Xs.2 medium Poolside 2 4.1 0/3 11.1s
#109 GLM 5V Turbo none Z.ai 2 5.3 1/3 2.09s
#111 Owl Alpha medium Openrouter 2 5.3 1/3 8.58s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten