AI BENCHY
Advertise here

AI BENCHY श्रेणी विफलताएँ

कोडिंग: निर्देशों का पालन नहीं किया

कोडिंग
निर्देशों का पालन नहीं किया

देखें कि कोडिंग में किन AI मॉडलों में निर्देशों का पालन नहीं किया आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

15

कुल विफलताएँ

16

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1
रैंक मॉडल कंपनी निर्देशों का पालन नहीं किया संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#6 Gemini 3.5 Flash medium Google 1 6.8 1/2 9.91s
#24 Gemini 3.5 Flash minimal Google 1 7.0 1/2 3.39s
#63 Claude Opus 4.6 medium Anthropic 1 7.2 1/2 29.4s
#74 Laguna M.1 medium Poolside 1 4.3 0/1 35.6s
#80 DeepSeek V4 Pro high DeepSeek 1 2.8 0/2 51.8s
#87 Grok 4.1 Fast medium X AI 1 2.3 0/1 23.6s
#96 Nemotron 3 Super medium NVIDIA 1 3.1 0/2 62.4s
#100 Owl Alpha medium Openrouter 1 6.6 1/2 19.1s
#101 Qwen3.5 Plus 2026-04-20 none Qwen 1 4.4 0/2 2.08s
#105 Cobuddy medium Baidu 1 4.1 0/2 79.2s
#110 Kimi K2.6 none Moonshot AI 1 6.8 1/2 122.8s
#114 DeepSeek V3.2 none DeepSeek 1 3.1 0/2 20.9s
#115 MiMo-V2.5-Pro none Xiaomi 1 5.0 0/2 1.80s
#149 MiMo-V2-Flash none Xiaomi 1 4.9 0/2 2.04s
#151 Qwen3.5-9B medium Qwen 1 2.8 0/2 135.6s

निर्देशों का पालन नहीं किया संख्या के अनुसार शीर्ष मॉडल

निर्देशों का पालन नहीं किया संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल