AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

AI BENCHY श्रेणी विफलताएँ

डेटा पार्सिंग और निष्कर्षण: गलत उत्तर

डेटा पार्सिंग और निष्कर्षण
गलत उत्तर

देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

35

सबसे अधिक प्रभावित मॉडल

Qwen3 Coder Next 1
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#150 Qwen3 Coder Next medium Qwen 1 6.5 1/2 81.8s
#96 Ring-2.6-1T none Inclusionai 1 3.0 0/2 45.9s
#135 Kimi K2.5 none Moonshot AI 1 7.3 1/2 42.1s
#75 Ring-2.6-1T medium Inclusionai 1 6.5 1/2 37.4s
#130 MiniMax M2.7 medium Minimax 1 6.3 1/2 21.9s
#94 GPT-5 Nano medium OpenAI 2 3.7 0/2 21.4s
#43 MiMo-V2.5-Pro medium Xiaomi 1 7.3 1/2 18.8s
#119 Cobuddy medium Baidu 1 6.3 1/2 17.4s
#51 Mimo V2 PRO medium Xiaomi 1 7.3 1/2 17.2s
#10 Claude Opus 4.8 medium Anthropic 1 7.1 1/2 12.3s
#133 DeepSeek V3.2 none DeepSeek 1 6.3 1/2 9.42s
#100 Grok Build 0.1 none X AI 1 3.8 0/2 9.33s
#138 Ling-2.6-flash none Inclusionai 1 6.5 1/2 8.48s
#129 MiniMax M2.5 medium Minimax 2 4.6 0/2 7.48s
#56 MiMo-V2.5 medium Xiaomi 1 2.7 0/2 6.33s

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल