AI BENCHY
Advertise here

AI BENCHY श्रेणी विफलताएँ

डोमेन-विशिष्ट: गलत उत्तर

डोमेन-विशिष्ट
गलत उत्तर

देखें कि डोमेन-विशिष्ट में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

15

कुल विफलताएँ

314

सबसे अधिक प्रभावित मॉडल

Qwen3.6 Max Preview 3
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#82 Hy3 preview high Tencent 2 5.3 1/3 109.0s
#84 Grok 4.20 Multi Agent Beta medium X AI 2 2.9 0/3 24.7s
#89 Hy3 preview low Tencent 2 5.9 1/3 40.4s
#92 Laguna M.1 medium Poolside 2 5.3 1/3 24.1s
#93 Qwen3.6 Plus Preview medium Qwen 2 3.0 0/3 22.1s
#95 Qwen3.5 Plus 2026-02-15 none Qwen 2 5.3 1/3 1.17s
#96 Ring-2.6-1T none Inclusionai 2 5.3 1/3 73.4s
#97 Gemini 2.5 Flash none Google 2 5.9 1/3 495ms
#100 Grok Build 0.1 none X AI 2 3.6 0/3 103.7s
#101 Mimo V2 Omni none Xiaomi 2 5.3 1/3 2.10s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 2 5.3 1/3 698ms
#105 Nemotron 3 Super medium NVIDIA 2 2.9 0/3 16.2s
#107 Laguna Xs.2 medium Poolside 2 4.1 0/3 11.1s
#109 GLM 5V Turbo none Z.ai 2 5.3 1/3 2.09s
#111 Owl Alpha medium Openrouter 2 5.3 1/3 8.58s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल