AI BENCHY
Advertise here

AI BENCHY श्रेणी विफलताएँ

डोमेन-विशिष्ट: गलत उत्तर

डोमेन-विशिष्ट
गलत उत्तर

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

15

कुल विफलताएँ

314

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Max Preview 3
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#56 MiMo-V2.5 medium Xiaomi 1 5.3 1/3 34.5s
#65 Grok 4.20 medium X AI 1 5.3 1/3 27.0s
#66 Qwen3.5-35B-A3B medium Qwen 1 4.1 0/3 88.3s
#69 Claude Opus 4.6 medium Anthropic 1 3.0 0/3 83.4s
#74 Qwen3.6 Max Preview none Qwen 1 7.7 2/3 1.22s
#77 Claude Sonnet 4.6 none Anthropic 1 7.7 2/3 3.54s
#79 Hunter Alpha medium OpenRouter 1 3.0 0/3 10.5s
#80 Mimo V2 Omni medium Xiaomi 1 3.0 0/3 47.9s
#85 Gemma 4 31B none Google 1 7.7 2/3 3.22s
#86 Grok 4.1 Fast medium X AI 1 5.8 1/3 121.8s
#94 GPT-5 Nano medium OpenAI 1 5.2 1/3 204.0s
#103 DeepSeek V4 Pro high DeepSeek 1 2.9 0/3 205.7s
#108 Qwen3.5-Flash none Qwen 1 7.7 2/3 905ms
#117 Qwen3.5-35B-A3B none Qwen 1 7.7 2/3 485ms
#118 Qwen3.6 27B none Qwen 1 7.7 2/3 3.03s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल