डेटा पार्सिंग और निष्कर्षण x गलत उत्तर रैंकिंग

देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में गलत उत्तर आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

GPT-5 Nano 2

विफलता के कारण

गलत उत्तर41 API त्रुटि14 कोई उत्तर नहीं8 अतिरिक्त फॉर्मेटिंग6 समय समाप्त1

श्रेणियाँ

डोमेन-विशिष्ट412 एंटी-एआई ट्रिक्स293 कोडिंग252 पहेली समाधान201 सामान्य ज्ञान168 संयुक्त68 निर्देश पालन61 Samanya Buddhimatta59 डेटा पार्सिंग और निष्कर्षण41 टूल कॉलिंग3

36/36

रैंक	मॉडल	कंपनी	गलत उत्तर संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.333 प्रतिक्रिया समय (औसत) 17.2s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.019 प्रतिक्रिया समय (औसत) 1.98s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	3.59s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.077 प्रतिक्रिया समय (औसत) 3.59s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	3.65s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 3.65s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 2.06s
#155	Kimi K2.5 none	Moonshot AI	1	7.3	$0.127	1/2	42.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.127 प्रतिक्रिया समय (औसत) 42.1s
#158	KAT-Coder-Air V2.5 low	Kwaipilot	1	6.5	$0.041	1/2	2.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 2.82s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 1.32s
#172	MiniMax M2.7 medium	Minimax	1	6.3	$0.163	1/2	21.9s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 21.9s
#173	DeepSeek V3.2 none	DeepSeek	1	6.3	$0.054	1/2	9.42s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 9.42s
#176	GLM 4.7 Flash none	Z.ai	1	7.3	$0.016	1/2	4.82s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 4.82s
#178	Ling-2.6-flash none	Inclusionai	1	6.5	$0.002	1/2	8.48s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 8.48s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 45.9s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.041 प्रतिक्रिया समय (औसत) 1.11s
#187	Qwen3 Coder Next medium	Qwen	1	6.5	$0.032	1/2	81.8s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.032 प्रतिक्रिया समय (औसत) 81.8s

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डेटा पार्सिंग और निष्कर्षण: गलत उत्तर

मॉडल फ़िल्टर करें

गलत उत्तर संख्या के अनुसार शीर्ष मॉडल

गलत उत्तर संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल