AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

572

सबसे अधिक प्रभावित मॉडल

LFM2-24B-A2B 9
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#56 Grok 4.20 Multi Agent Beta medium X AI 3 6.4 7/18 9.80s
#57 GPT-5 Nano medium OpenAI 7 6.3 7/18 44.1s
#60 Gemma 4 26B A4B none Google 7 6.2 7/18 6.59s
#62 Gemini 2.5 Flash none Google 10 6.2 7/18 903ms
#63 Qwen3.5-35B-A3B none Qwen 9 6.1 7/18 3.82s
#64 DeepSeek V3.2 none DeepSeek 8 6.1 7/18 12.1s
#65 MiMo-V2-Pro none Xiaomi 9 6.0 7/18 2.39s
#66 GPT-5.4 none OpenAI 10 5.9 7/18 1.51s
#68 gpt-oss-120b medium OpenAI 7 5.8 7/18 16.1s
#69 Kimi K2.6 none Moonshot AI 8 5.8 7/18 2.05s
#50 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#54 Mercury 2 medium Inception 6 6.5 8/18 2.21s
#55 MiMo-V2-Omni none Xiaomi 8 6.5 8/18 1.99s
#58 GLM 5V Turbo none Z.ai 8 6.2 8/18 3.10s
#59 Qwen3.5-Flash none Qwen 9 6.2 8/18 3.25s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल