AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

572

सबसे अधिक प्रभावित मॉडल

Mercury 2 13
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#9 Qwen3.6 Plus Preview medium Qwen 3 8.5 13/17 13.9s
#40 GPT-5.2 medium OpenAI 2 7.5 11/18 14.0s
#31 GLM 5V Turbo medium Z.ai 3 7.8 11/18 15.0s
#44 GPT-5.4 Mini medium OpenAI 4 7.3 9/18 15.2s
#20 Qwen3.6 Plus medium Qwen 3 8.1 13/18 15.3s
#7 GPT-5.3-Codex medium OpenAI 3 8.6 13/18 15.4s
#2 Gemini 3.1 Pro Preview medium Google 1 9.6 17/18 16.0s
#68 gpt-oss-120b medium OpenAI 7 5.8 7/18 16.1s
#35 MiMo-V2-Omni medium Xiaomi 3 7.7 11/18 16.8s
#18 GLM 5 Turbo medium Z.ai 3 8.1 12/18 17.7s
#16 GPT-5.4 medium OpenAI 3 8.2 13/18 18.6s
#51 Nemotron 3 Super medium NVIDIA 3 6.7 9/18 19.1s
#37 Claude Opus 4.6 medium Anthropic 2 7.6 12/18 21.1s
#13 GLM 5 medium Z.ai 2 8.4 13/18 23.3s
#41 MiMo-V2-Flash medium Xiaomi 3 7.5 11/18 23.4s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल