AI BENCHY
Your ad here

AI BENCHY श्रेणी विफलताएँ

डेटा पार्सिंग और निष्कर्षण: गलत उत्तर

डेटा पार्सिंग और निष्कर्षण
गलत उत्तर

देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

15

कुल विफलताएँ

19

सबसे अधिक प्रभावित मॉडल

Qwen3 Coder Next 1
रैंक मॉडल कंपनी गलत उत्तर संख्या श्रेणी स्कोर सही परीक्षण प्रतिक्रिया समय (औसत)
#92 Qwen3 Coder Next medium Qwen 1 6.5 1/2 81.8s
#76 Kimi K2.5 none Moonshot AI 1 7.3 1/2 42.1s
#80 MiniMax M2.7 medium Minimax 1 6.3 1/2 21.9s
#57 GPT-5 Nano medium OpenAI 2 3.7 0/2 21.4s
#23 MiMo-V2-Pro medium Xiaomi 1 7.3 1/2 17.2s
#64 DeepSeek V3.2 none DeepSeek 1 6.3 1/2 9.42s
#71 MiniMax M2.5 medium Minimax 2 4.6 0/2 7.48s
#74 GLM 4.7 Flash none Z.ai 1 7.3 1/2 4.82s
#68 gpt-oss-120b medium OpenAI 1 6.4 1/2 1.98s
#87 Qwen3 Coder Next none Qwen 1 6.5 1/2 1.32s
#96 GPT-5.4 Nano none OpenAI 1 6.5 1/2 1.11s
#54 Mercury 2 medium Inception 1 7.3 1/2 1.11s
#85 Elephant none Openrouter 1 6.5 1/2 1.04s
#81 Elephant medium Openrouter 1 6.5 1/2 979ms
#98 LFM2-24B-A2B none Liquid 2 3.0 0/2 714ms

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल