AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Eșecuri AI BENCHY

Eșecuri Răspuns greșit

Vezi ce modele AI se lovesc cel mai des de Răspuns greșit, ca să identifici riscurile de fiabilitate înainte să alegi. Sortează după: Scor ↑.

Modele afișate

15

Eșecuri totale

572

Modelul cel mai afectat

LFM2-24B-A2B 9
Rang Model Companie Număr de Răspuns greșit Scor Teste corecte Timp de răspuns (mediu)
#68 gpt-oss-120b medium OpenAI 7 5.8 7/18 16.1s
#67 Qwen3.5-27B none Qwen 10 5.9 6/18 1.74s
#66 GPT-5.4 none OpenAI 10 5.9 7/18 1.51s
#65 MiMo-V2-Pro none Xiaomi 9 6.0 7/18 2.39s
#63 Qwen3.5-35B-A3B none Qwen 9 6.1 7/18 3.82s
#64 DeepSeek V3.2 none DeepSeek 8 6.1 7/18 12.1s
#62 Gemini 2.5 Flash none Google 10 6.2 7/18 903ms
#61 Seed-2.0-Lite none Bytedance Seed 10 6.2 8/18 2.53s
#60 Gemma 4 26B A4B none Google 7 6.2 7/18 6.59s
#59 Qwen3.5-Flash none Qwen 9 6.2 8/18 3.25s
#58 GLM 5V Turbo none Z.ai 8 6.2 8/18 3.10s
#57 GPT-5 Nano medium OpenAI 7 6.3 7/18 44.1s
#56 Grok 4.20 Multi Agent Beta medium X AI 3 6.4 7/18 9.80s
#55 MiMo-V2-Omni none Xiaomi 8 6.5 8/18 1.99s
#54 Mercury 2 medium Inception 6 6.5 8/18 2.21s

Top modele după Număr de Răspuns greșit

Număr de Răspuns greșit vs Scor

Top modele după Timp de răspuns (mediu)