AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 13
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#58 Gemini 3.1 Flash Lite Preview none Google 7 7.2 12/21 1.21s
#57 Step 3.7 Flash low Stepfun 8 7.3 12/21 15.7s
#56 MiMo-V2.5 medium Xiaomi 5 7.3 12/21 27.1s
#55 GLM 5.1 medium Z.ai 4 7.3 12/21 33.7s
#54 GPT-5 Mini medium OpenAI 5 7.3 12/21 23.6s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#52 Claude Sonnet 4.6 medium Anthropic 4 7.4 13/21 17.1s
#51 Mimo V2 PRO medium Xiaomi 5 7.4 12/21 22.2s
#50 Gemini 3.1 Flash Lite Preview low Google 7 7.4 13/21 2.77s
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#48 Gemini 3 Flash Preview none Google 8 7.4 13/21 1.65s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#46 Qwen3.6 35B A3B medium Qwen 4 7.4 13/21 18.1s
#45 GPT-5.4 Mini medium OpenAI 6 7.5 12/21 22.3s
#44 Gemini 3.1 Flash Lite medium Google 7 7.5 13/21 3.23s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल