AI BENCHY
Advertise here

AI BENCHY विफलताएँ

कोई उत्तर नहीं विफलताएँ

देखें कि किन AI मॉडलों में कोई उत्तर नहीं सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

43

सबसे अधिक प्रभावित मॉडल

Claude Opus 4.8 1
रैंक मॉडल कंपनी कोई उत्तर नहीं संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#10 Claude Opus 4.8 medium Anthropic 1 8.7 17/21 9.66s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s
#23 GLM 5 Turbo medium Z.ai 1 8.0 14/21 23.0s
#27 Gemma 4 31B medium Google 1 7.8 14/21 56.5s
#37 Gemma 4 26B A4B medium Google 2 7.6 14/21 63.4s
#42 GPT-5.2 medium OpenAI 1 7.5 13/21 16.9s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#55 GLM 5.1 medium Z.ai 1 7.3 12/21 33.7s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#57 Step 3.7 Flash low Stepfun 1 7.3 12/21 15.7s
#60 Kimi K2.6 medium Moonshot AI 1 7.2 12/21 71.7s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s
#53 Gemini 3.1 Flash Lite high Google 1 7.3 10/18 62.0s
#62 Step 3.5 Flash medium Stepfun 1 7.2 11/20 72.5s

कोई उत्तर नहीं संख्या के अनुसार शीर्ष मॉडल

कोई उत्तर नहीं संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल