AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: स्कोर ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 13
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#43 MiMo-V2.5-Pro medium Xiaomi 3 7.5 12/21 26.1s
#42 GPT-5.2 medium OpenAI 3 7.5 13/21 16.9s
#41 Nemotron 3 Ultra 550b A55b medium NVIDIA 7 7.5 13/21 15.1s
#40 Gemini 3.1 Flash Lite Preview medium Google 7 7.5 13/21 3.96s
#39 Qwen3.6 Flash medium Qwen 8 7.5 12/21 19.2s
#38 Grok 4.3 medium X AI 5 7.6 13/21 47.5s
#37 Gemma 4 26B A4B medium Google 3 7.6 14/21 63.4s
#35 Gemini 3 PRO Preview medium Google 3 7.6 14/21 9.05s
#36 Qwen3.5 Plus 2026-04-20 medium Qwen 8 7.6 13/21 46.4s
#33 Hy3 preview medium Tencent 3 7.7 14/21 16.3s
#34 Qwen3.7 Max none Qwen 7 7.7 14/21 1.30s
#32 Gemini 3.5 Flash minimal Google 5 7.7 14/21 1.57s
#31 DeepSeek V4 Flash high DeepSeek 6 7.7 13/21 45.8s
#30 Qwen3.5-27B medium Qwen 4 7.8 13/21 68.4s
#29 Qwen3.5-122B-A10B medium Qwen 5 7.8 14/21 42.5s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल