AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Mistral Small 4 15
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 8 7.6 13/21 46.4s
#19 Seed-2.0-Lite medium Bytedance Seed 5 8.2 14/21 47.1s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s
#47 Grok Build 0.1 medium X AI 5 7.4 13/21 49.9s
#96 Ring-2.6-1T none Inclusionai 5 6.2 9/21 55.1s
#27 Gemma 4 31B medium Google 2 7.8 14/21 56.5s
#82 Hy3 preview high Tencent 3 6.6 11/21 56.6s
#14 Qwen3.6 Max Preview medium Qwen 5 8.5 16/21 59.6s
#78 Qwen3.6 27B medium Qwen 6 6.8 10/21 59.7s
#75 Ring-2.6-1T medium Inclusionai 6 6.9 11/21 61.3s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#37 Gemma 4 26B A4B medium Google 3 7.6 14/21 63.4s
#71 Step 3.7 Flash high Stepfun 6 7.0 11/21 64.5s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल