डेटा पार्सिंग आणि निष्कर्षण मॉडेल क्रमवारी

डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

सरासरी डेटा पार्सिंग आणि निष्कर्षण स्कोअर

8.9

सर्वोत्तम मॉडेल

LongCat 2.0 3.6

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह41 अयशस्वी होण्याचे कारण API त्रुटी सह14 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह6 अयशस्वी होण्याचे कारण वेळ संपला सह1

210/210

क्रमांक	मॉडेल	कंपनी	डेटा पार्सिंग आणि निष्कर्षण स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#41	Claude Opus 4.8 low	Anthropic	6.3	7.8	$2.077	1/2	2.27s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 2.27s
#42	GLM 5 medium	Z.ai	7.1	7.7	$0.307	1/2	8.90s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.307 प्रतिसाद वेळ (सरासरी) 8.90s
#60	LongCat 2.0 medium	Meituan	6.3	7.4	$0.478	1/2	10.6s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.478 प्रतिसाद वेळ (सरासरी) 10.6s
#66	Claude Opus 4.8 none	Anthropic	7.3	7.3	$1.166	1/2	1.77s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.77s
#67	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	2.29s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 2.29s
#78	Mercury 2 medium	Inception	7.3	7.0	$0.093	1/2	1.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.11s
#79	Gemini 3.5 Flash none	Google	6.5	7.0	$1.079	1/2	8.10s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 8.10s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	7.3	6.9	$0.467	1/2	4.70s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	7.3	6.9	$0.187	1/2	18.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 18.8s
#91	LongCat 2.0 low	Meituan	6.3	6.7	$0.391	1/2	10.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.391 प्रतिसाद वेळ (सरासरी) 10.8s
#100	Hy3 preview medium	Tencent	6.5	6.5	$0.018	1/2	5.25s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 5.25s
#108	Ring-2.6-1T medium	Inclusionai	6.5	6.3	$0.103	1/2	37.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 37.4s
#109	Mimo V2 PRO medium	Xiaomi	7.3	6.3	$0.333	1/2	17.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 17.2s
#113	MiMo-V2-Flash medium	Xiaomi	6.5	6.3	$0.043	1/2	0ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 0ms
#114	Qwen3.5-Flash medium	Qwen	7.3	6.2	$0.139	1/2	57.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 57.0s

डेटा पार्सिंग आणि निष्कर्षण क्रमवारी

मॉडेल फिल्टर करा

डेटा पार्सिंग आणि निष्कर्षण स्कोअर नुसार शीर्ष मॉडेल्स

डेटा पार्सिंग आणि निष्कर्षण स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स