AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें।

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Mercury 2 16
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#41 Nemotron 3 Ultra 550b A55b medium NVIDIA 7 7.5 13/21 15.1s
#44 Gemini 3.1 Flash Lite medium Google 7 7.5 13/21 3.23s
#50 Gemini 3.1 Flash Lite Preview low Google 7 7.4 13/21 2.77s
#58 Gemini 3.1 Flash Lite Preview none Google 7 7.2 12/21 1.21s
#59 GLM 5V Turbo medium Z.ai 7 7.2 11/21 23.1s
#63 GPT-5.3 Chat none OpenAI 7 7.2 12/21 6.34s
#100 Grok Build 0.1 none X AI 7 6.0 7/19 28.7s
#129 MiniMax M2.5 medium Minimax 7 5.3 5/21 65.4s
#133 DeepSeek V3.2 none DeepSeek 7 5.2 6/21 13.8s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 7 4.6 4/19 17.1s
#24 GPT-5.2 Chat none OpenAI 6 7.9 14/21 7.13s
#28 Gemini 2.5 Flash medium Google 6 7.8 14/21 15.5s
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#45 GPT-5.4 Mini medium OpenAI 6 7.5 12/21 22.3s
#65 Grok 4.20 medium X AI 6 7.1 12/21 27.7s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल