AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

निर्देश पालन: गलत उत्तर

निर्देश पालन
गलत उत्तर

देखें कि निर्देश पालन में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

44

सबसे अधिक प्रभावित मॉडल

Gemini 3 Flash Preview 1
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#21 Gemini 3 Flash Preview none Google 1 6.4 1/2 1.58s
#28 GPT-5.2 Chat none OpenAI 1 7.5 1/2 5.46s
#33 GLM 5.1 medium Z.ai 1 6.4 1/2 7.47s
#36 GPT-5.3 Chat none OpenAI 1 8.3 1/2 3.29s
#42 Claude Sonnet 4.6 none Anthropic 1 6.5 1/2 1.96s
#48 Gemma 4 31B none Google 1 6.5 1/2 2.84s
#55 MiMo-V2-Omni none Xiaomi 1 6.5 1/2 4.18s
#58 GLM 5V Turbo none Z.ai 1 6.5 1/2 1.97s
#59 Qwen3.5-Flash none Qwen 1 6.3 1/2 8.81s
#62 Gemini 2.5 Flash none Google 1 8.0 1/2 672ms
#63 Qwen3.5-35B-A3B none Qwen 1 6.3 1/2 809ms
#65 MiMo-V2-Pro none Xiaomi 1 6.5 1/2 2.51s
#66 GPT-5.4 none OpenAI 1 6.5 1/2 1.07s
#69 Kimi K2.6 none Moonshot AI 1 6.5 1/2 1.64s
#72 Hunter Alpha none OpenRouter 1 6.4 1/2 2.82s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल