डेटा पार्सिंग और निष्कर्षण x गलत उत्तर रैंकिंग

देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

LongCat 2.0 1

विफलता के कारण

गलत उत्तर41 API त्रुटि14 कोई उत्तर नहीं8 अतिरिक्त फॉर्मेटिंग6 समय समाप्त1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

36/36

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 6.33s
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 21.4s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 45.9s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 7.48s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 575ms
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 9.33s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.42s
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 714ms
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $2.077 प्रतिक्रिया समय (औसत) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.166 प्रतिक्रिया समय (औसत) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.454 प्रतिक्रिया समय (औसत) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.467 प्रतिक्रिया समय (औसत) 4.70s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डेटा पार्सिंग और निष्कर्षण: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल