डेटा पार्सिंग और निष्कर्षण मॉडल रैंकिंग

देखें कि डेटा पार्सिंग और निष्कर्षण में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

औसत डेटा पार्सिंग और निष्कर्षण स्कोर

8.9

सर्वश्रेष्ठ मॉडल

LongCat 2.0 3.6

विफलता के कारण

विफलता कारण गलत उत्तर के साथ41 विफलता कारण API त्रुटि के साथ14 विफलता कारण कोई उत्तर नहीं के साथ8 विफलता कारण अतिरिक्त फॉर्मेटिंग के साथ6 विफलता कारण समय समाप्त के साथ1

210/210

रैंक	मॉडल	कंपनी	डेटा पार्सिंग और निष्कर्षण स्कोर	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#97	LongCat 2.0 high	Meituan	3.6	6.6	$0.469	0/2	11.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.469 प्रतिक्रिया समय (औसत) 11.0s
#99	Qwen3.6 27B medium	Qwen	3.5	6.5	$0.779	0/2	37.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 37.3s
#101	MiMo-V2.5 medium	Xiaomi	2.7	6.5	$0.082	0/2	6.33s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.082 प्रतिक्रिया समय (औसत) 6.33s
#128	GPT-5 Nano medium	OpenAI	3.7	6.1	$0.114	0/2	21.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.114 प्रतिक्रिया समय (औसत) 21.4s
#179	Ring-2.6-1T none	Inclusionai	3.0	4.8	$0.026	0/2	45.9s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 45.9s
#190	MiniMax M2.5 medium	Minimax	4.6	4.6	$0.340	0/2	7.48s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 7.48s
#200	MiMo-V2-Flash none	Xiaomi	2.9	4.0	$0.025	0/2	19.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.025 प्रतिक्रिया समय (औसत) 19.7s
#201	Granite 4.1 8B none	IBM Granite	3.0	4.0	$0.007	0/2	575ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 575ms
#202	Grok Build 0.1 none	X AI	3.8	4.0	$0.547	0/2	9.33s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 9.33s
#204	Qwen3.5-9B medium	Qwen	3.6	3.8	$0.036	0/2	87.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.036 प्रतिक्रिया समय (औसत) 87.3s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	3.8	3.2	$0.000	0/2	1.42s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.42s
#209	Step 3.5 Flash none	Stepfun	1.5	2.3	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/2	714ms
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.001 प्रतिक्रिया समय (औसत) 714ms
#14	Claude Opus 4.8 medium	Anthropic	7.1	8.8	$1.931	1/2	12.3s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.931 प्रतिक्रिया समय (औसत) 12.3s
#33	Kimi K3 max	Moonshot AI	7.3	8.0	$3.112	1/2	16.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 16.7s

1 2 14

→

डेटा पार्सिंग और निष्कर्षण रैंकिंग

मॉडल फ़िल्टर करें

डेटा पार्सिंग और निष्कर्षण स्कोर के अनुसार शीर्ष मॉडल

डेटा पार्सिंग और निष्कर्षण स्कोर बनाम कुल लागत

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल