डेटा पार्सिंग और निष्कर्षण x गलत उत्तर रैंकिंग

देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Qwen3 Coder Next 1

विफलता के कारण

गलत उत्तर41 API त्रुटि14 कोई उत्तर नहीं8 अतिरिक्त फॉर्मेटिंग6 समय समाप्त1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

36/36

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#187	Qwen3 Coder Next medium	Qwen	1	6.5	$0.032	1/2	81.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 81.8s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 45.9s
#155	Kimi K2.5 none	Moonshot AI	1	7.3	$0.127	1/2	42.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 42.1s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.103 प्रतिक्रिया समय (औसत) 37.4s
#172	MiniMax M2.7 medium	Minimax	1	6.3	$0.163	1/2	21.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 21.9s
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 21.4s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 18.8s
#188	Cobuddy medium	Baidu	1	6.3	$0.000	1/2	17.4s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 17.4s
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 17.2s
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 12.3s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 11.0s
#173	DeepSeek V3.2 none	DeepSeek	1	6.3	$0.054	1/2	9.42s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 9.42s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 9.33s
#178	Ling-2.6-flash none	Inclusionai	1	6.5	$0.002	1/2	8.48s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 8.48s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 7.48s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डेटा पार्सिंग और निष्कर्षण: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल