डेटा पार्सिंग और निष्कर्षण x कोई उत्तर नहीं रैंकिंग

देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में कोई उत्तर नहीं आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: विफलता संख्या ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

GLM 5 1

विफलता के कारण

गलत उत्तर41 API त्रुटि14 कोई उत्तर नहीं8 अतिरिक्त फॉर्मेटिंग6 समय समाप्त1

श्रेणियाँ

संयुक्त29 कोडिंग18 सामान्य ज्ञान13 डेटा पार्सिंग और निष्कर्षण8 डोमेन-विशिष्ट8 एंटी-एआई ट्रिक्स4 पहेली समाधान3 टूल कॉलिंग2 निर्देश पालन2

7/7

रैंक	मॉडल	कंपनी	कोई उत्तर नहीं संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#42	GLM 5 medium	Z.ai	1	7.1	$0.307	1/2	8.90s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.307 प्रतिक्रिया समय (औसत) 8.90s
#60	LongCat 2.0 medium	Meituan	1	6.3	$0.478	1/2	10.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.478 प्रतिक्रिया समय (औसत) 10.6s
#91	LongCat 2.0 low	Meituan	1	6.3	$0.391	1/2	10.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 10.8s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 11.0s
#194	GLM 4.7 Flash medium	Z.ai	1	6.3	$0.166	1/2	1.51s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 1.51s
#198	Laguna Xs.2 medium	Poolside	1	7.1	$0.015	1/2	9.34s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 9.34s
#99	Qwen3.6 27B medium	Qwen	2	3.5	$0.779	0/2	37.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 37.3s

मॉडल फ़िल्टर करें

कोई उत्तर नहीं संख्या के अनुसार शीर्ष मॉडल

कोई उत्तर नहीं संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डेटा पार्सिंग और निष्कर्षण: कोई उत्तर नहीं

मॉडल फ़िल्टर करें

कोई उत्तर नहीं संख्या के अनुसार शीर्ष मॉडल

कोई उत्तर नहीं संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल