AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 13
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#55 GLM 5.1 medium Z.ai 4 7.3 12/21 33.7s
#56 MiMo-V2.5 medium Xiaomi 5 7.3 12/21 27.1s
#57 Step 3.7 Flash low Stepfun 8 7.3 12/21 15.7s
#58 Gemini 3.1 Flash Lite Preview none Google 7 7.2 12/21 1.21s
#60 Kimi K2.6 medium Moonshot AI 3 7.2 12/21 71.7s
#61 Gemini 3.1 Flash Lite low Google 9 7.2 12/21 1.89s
#63 GPT-5.3 Chat none OpenAI 7 7.2 12/21 6.34s
#64 MiMo-V2-Flash medium Xiaomi 5 7.2 12/21 20.1s
#65 Grok 4.20 medium X AI 6 7.1 12/21 27.7s
#68 Claude Opus 4.8 none Anthropic 4 7.0 12/21 3.47s
#69 Claude Opus 4.6 medium Anthropic 3 7.0 12/21 25.9s
#30 Qwen3.5-27B medium Qwen 4 7.8 13/21 68.4s
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 8 7.6 13/21 46.4s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल