AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY Kategoriefehler

Kombiniert: Falsche Antwort

Kombiniert
Falsche Antwort

Sieh, welche KI-Modelle bei Kombiniert am ehesten auf Falsche Antwort stoßen, damit du Schwachstellen schneller erkennst.

Angezeigte Modelle

15

Gesamtfehler

37

Am stärksten betroffenes Modell

Gemini 3 Flash Preview 1
Rang Modell Unternehmen Falsche Antwort-Anzahl Kategorie-Score Korrekte Tests Antwortzeit (Durchschnitt)
#65 MiMo-V2-Pro none Xiaomi 1 3.0 0/1 6.58s
#66 GPT-5.4 none OpenAI 1 3.0 0/1 2.89s
#67 Qwen3.5-27B none Qwen 1 2.8 0/1 9.39s
#69 Kimi K2.6 none Moonshot AI 1 3.0 0/1 3.38s
#70 Qwen3.5-122B-A10B none Qwen 1 3.0 0/1 46.0s
#72 Hunter Alpha none OpenRouter 1 3.0 0/1 15.2s
#73 Mistral Small 4 medium Mistral 1 3.0 0/1 25.3s
#76 Kimi K2.5 none Moonshot AI 1 2.8 0/1 19.2s
#77 GLM 5 Turbo none Z.ai 1 3.0 0/1 4.89s
#78 Trinity Large Preview none Arcee AI 1 3.0 0/1 8.91s
#81 Elephant medium Openrouter 1 3.0 0/1 3.70s
#83 Mistral Small 4 none Mistral 1 3.0 0/1 1.72s
#85 Elephant none Openrouter 1 3.0 0/1 3.81s
#86 GPT-5.4 Mini none OpenAI 1 3.0 0/1 2.52s
#87 Qwen3 Coder Next none Qwen 1 3.0 0/1 45.1s

Top-Modelle nach Falsche Antwort-Anzahl

Falsche Antwort-Anzahl vs Punktzahl

Top-Modelle nach Antwortzeit (Durchschnitt)

Top-Modelle nach Geschätzte verschwendete Kosten