AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 13
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#71 Step 3.7 Flash high Stepfun 6 7.0 11/21 64.5s
#72 DeepSeek V3.2 medium DeepSeek 5 7.0 11/21 68.7s
#73 Seed-2.0-Mini medium Bytedance Seed 4 6.9 11/21 80.2s
#74 Qwen3.6 Max Preview none Qwen 10 6.9 11/21 3.30s
#75 Ring-2.6-1T medium Inclusionai 6 6.9 11/21 61.3s
#77 Claude Sonnet 4.6 none Anthropic 5 6.8 11/21 5.04s
#82 Hy3 preview high Tencent 3 6.6 11/21 56.6s
#62 Step 3.5 Flash medium Stepfun 4 7.2 11/20 72.5s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#39 Qwen3.6 Flash medium Qwen 8 7.5 12/21 19.2s
#43 MiMo-V2.5-Pro medium Xiaomi 3 7.5 12/21 26.1s
#45 GPT-5.4 Mini medium OpenAI 6 7.5 12/21 22.3s
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#51 Mimo V2 PRO medium Xiaomi 5 7.4 12/21 22.2s
#54 GPT-5 Mini medium OpenAI 5 7.3 12/21 23.6s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल