AI BENCHY
Advertise here

AI BENCHY विफलताएँ

कोई उत्तर नहीं विफलताएँ

देखें कि किन AI मॉडलों में कोई उत्तर नहीं सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

43

सबसे अधिक प्रभावित मॉडल

Claude Opus 4.8 1
रैंक मॉडल कंपनी कोई उत्तर नहीं संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#10 Claude Opus 4.8 medium Anthropic 1 8.7 17/21 9.66s
#17 GLM 5 medium Z.ai 1 8.3 15/21 33.5s
#22 Step 3.7 Flash medium Stepfun 1 8.0 14/21 20.4s
#23 GLM 5 Turbo medium Z.ai 1 8.0 14/21 23.0s
#27 Gemma 4 31B medium Google 1 7.8 14/21 56.5s
#42 GPT-5.2 medium OpenAI 1 7.5 13/21 16.9s
#46 Qwen3.6 35B A3B medium Qwen 1 7.4 13/21 18.1s
#53 Gemini 3.1 Flash Lite high Google 1 7.3 10/18 62.0s
#55 GLM 5.1 medium Z.ai 1 7.3 12/21 33.7s
#56 MiMo-V2.5 medium Xiaomi 1 7.3 12/21 27.1s
#57 Step 3.7 Flash low Stepfun 1 7.3 12/21 15.7s
#60 Kimi K2.6 medium Moonshot AI 1 7.2 12/21 71.7s
#62 Step 3.5 Flash medium Stepfun 1 7.2 11/20 72.5s
#67 MiniMax M3 medium Minimax 1 7.1 11/21 68.2s
#68 Claude Opus 4.8 none Anthropic 1 7.0 12/21 3.47s

कोई उत्तर नहीं संख्या के अनुसार शीर्ष मॉडल

कोई उत्तर नहीं संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल