AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 13
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#123 MiMo-V2.5-Pro none Xiaomi 11 5.5 6/21 1.78s
#131 Qwen3.5-122B-A10B none Qwen 13 5.3 6/21 3.41s
#133 DeepSeek V3.2 none DeepSeek 7 5.2 6/21 13.8s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#135 Kimi K2.5 none Moonshot AI 15 5.2 6/21 13.2s
#136 Elephant Alpha medium Openrouter 9 5.1 6/21 1.27s
#138 Ling-2.6-flash none Inclusionai 9 5.0 6/21 9.34s
#107 Laguna Xs.2 medium Poolside 6 5.8 6/19 6.73s
#126 gpt-oss-120b none OpenAI 8 5.4 6/19 21.6s
#106 Grok 4.20 Beta none X AI 10 5.8 6/18 1.19s
#112 GLM 5.1 none Z.ai 13 5.7 7/21 4.10s
#113 DeepSeek V4 Pro none DeepSeek 10 5.7 7/21 12.4s
#114 Qwen3.5 Plus 2026-04-20 none Qwen 12 5.7 7/21 4.39s
#115 Qwen3.5-27B none Qwen 12 5.7 7/21 1.68s
#116 Hunter Alpha none OpenRouter 9 5.7 6/18 4.70s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल