डेटा पार्सिंग और निष्कर्षण x API त्रुटि रैंकिंग

देखें कि डेटा पार्सिंग और निष्कर्षण में किन AI मॉडलों में API त्रुटि आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

विफलता के कारण

गलत उत्तर41 API त्रुटि14 कोई उत्तर नहीं8 अतिरिक्त फॉर्मेटिंग6 समय समाप्त1

श्रेणियाँ

कोडिंग45 संयुक्त26 टूल कॉलिंग17 एंटी-एआई ट्रिक्स14 डेटा पार्सिंग और निष्कर्षण14 सामान्य ज्ञान13 Samanya Buddhimatta12 पहेली समाधान12 डोमेन-विशिष्ट7 निर्देश पालन1

14/14

रैंक	मॉडल	कंपनी	API त्रुटि संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#79	Gemini 3.5 Flash none	Google	1	6.5	$1.079	1/2	8.10s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 8.10s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	1/2	5.25s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.018 प्रतिक्रिया समय (औसत) 5.25s
#113	MiMo-V2-Flash medium	Xiaomi	1	6.5	$0.043	1/2	0ms
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.043 प्रतिक्रिया समय (औसत) 0ms
#114	Qwen3.5-Flash medium	Qwen	1	7.3	$0.139	1/2	57.0s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.139 प्रतिक्रिया समय (औसत) 57.0s
#119	Qwen3.5-35B-A3B medium	Qwen	1	7.3	$0.837	1/2	59.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.837 प्रतिक्रिया समय (औसत) 59.3s
#135	Hy3 preview high	Tencent	1	6.5	$0.048	1/2	12.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.048 प्रतिक्रिया समय (औसत) 12.1s
#153	Hy3 preview low	Tencent	1	6.5	$0.015	1/2	5.85s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.015 प्रतिक्रिया समय (औसत) 5.85s
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.23s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.096 प्रतिक्रिया समय (औसत) 1.23s
#199	Hy3 preview none	Tencent	1	6.5	$0.003	1/2	2.85s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.003 प्रतिक्रिया समय (औसत) 2.85s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	1/2	7.12s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 7.12s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 45.9s
#200	MiMo-V2-Flash none	Xiaomi	1	2.9	$0.025	0/2	19.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 19.7s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 9.33s
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms

मॉडल फ़िल्टर करें

API त्रुटि संख्या के अनुसार शीर्ष मॉडल

API त्रुटि संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

डेटा पार्सिंग और निष्कर्षण: API त्रुटि

मॉडल फ़िल्टर करें

API त्रुटि संख्या के अनुसार शीर्ष मॉडल

API त्रुटि संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल