AI BENCHY
Advertise here

AI BENCHY विफलताएँ

गलत उत्तर विफलताएँ

देखें कि किन AI मॉडलों में गलत उत्तर सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

15

कुल विफलताएँ

1204

सबसे अधिक प्रभावित मॉडल

Gemini 3 Flash Preview 1
रैंक मॉडल कंपनी गलत उत्तर संख्या स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#23 GLM 5 Turbo medium Z.ai 4 8.0 14/21 23.0s
#25 Qwen3.5 Plus 2026-02-15 medium Qwen 4 7.9 14/21 73.8s
#30 Qwen3.5-27B medium Qwen 4 7.8 13/21 68.4s
#46 Qwen3.6 35B A3B medium Qwen 4 7.4 13/21 18.1s
#49 Qwen3.5-Flash medium Qwen 4 7.4 12/21 63.3s
#52 Claude Sonnet 4.6 medium Anthropic 4 7.4 13/21 17.1s
#53 Gemini 3.1 Flash Lite high Google 4 7.3 10/18 62.0s
#55 GLM 5.1 medium Z.ai 4 7.3 12/21 33.7s
#62 Step 3.5 Flash medium Stepfun 4 7.2 11/20 72.5s
#68 Claude Opus 4.8 none Anthropic 4 7.0 12/21 3.47s
#73 Seed-2.0-Mini medium Bytedance Seed 4 6.9 11/21 80.2s
#79 Hunter Alpha medium OpenRouter 4 6.7 8/18 10.3s
#84 Grok 4.20 Multi Agent Beta medium X AI 4 6.6 8/18 9.69s
#86 Grok 4.1 Fast medium X AI 4 6.5 9/19 23.8s
#89 Hy3 preview low Tencent 4 6.4 10/21 24.6s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल