डेटा पार्सिंग आणि निष्कर्षण मॉडेल क्रमवारी

डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणती AI मॉडेल्स सर्वोत्तम काम करतात, कोणती विश्वासार्ह राहतात आणि सर्वात मोठी दरी कुठे दिसते ते पाहा. क्रम लावा: मेट्रिक ↑.

दाखवलेली मॉडेल्स

सरासरी डेटा पार्सिंग आणि निष्कर्षण स्कोअर

8.9

सर्वोत्तम मॉडेल

Step 3.5 Flash 1.5

अयशस्वी होण्याची कारणे

अयशस्वी होण्याचे कारण चुकीचे उत्तर सह41 अयशस्वी होण्याचे कारण API त्रुटी सह14 अयशस्वी होण्याचे कारण उत्तर नाही सह8 अयशस्वी होण्याचे कारण अतिरिक्त फॉरमॅटिंग सह6 अयशस्वी होण्याचे कारण वेळ संपला सह1

216/216

क्रमांक	मॉडेल	कंपनी	डेटा पार्सिंग आणि निष्कर्षण स्कोअर	स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#71	Step 3.7 Flash low	Stepfun	7.3	7.3	$0.454	1/2	2.29s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 2.29s
#88	MiMo-V2.5-Pro medium	Xiaomi	7.3	6.9	$0.187	1/2	18.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 18.8s
#115	Mimo V2 PRO medium	Xiaomi	7.3	6.3	$0.333	1/2	17.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 17.2s
#158	Qwen3.6 27B none	Qwen	7.3	5.5	$0.087	1/2	2.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 2.06s
#161	Kimi K2.5 none	Moonshot AI	7.3	5.5	$0.127	1/2	42.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 42.1s
#182	GLM 4.7 Flash none	Z.ai	7.3	4.9	$0.016	1/2	4.82s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.016 प्रतिसाद वेळ (सरासरी) 4.82s
#82	Mercury 2 medium	Inception	7.3	7.0	$0.093	1/2	1.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.11s
#85	KAT-Coder-Pro V2.5 medium	Kwaipilot	7.3	6.9	$0.467	1/2	4.70s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 4.70s
#120	Qwen3.5-Flash medium	Qwen	7.3	6.2	$0.139	1/2	57.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 57.0s
#125	Qwen3.5-35B-A3B medium	Qwen	7.3	6.2	$0.837	1/2	59.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.837 प्रतिसाद वेळ (सरासरी) 59.3s
#173	Mistral Small 4 medium	Mistral	7.3	5.1	$0.096	1/2	1.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 1.23s
#195	Mercury 2 none	Inception	7.3	4.6	$0.030	1/2	667ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 667ms
#213	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	7.3	3.4	$0.000	1/2	2.72s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.72s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	2/2	4.26s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $0.831 प्रतिसाद वेळ (सरासरी) 4.26s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	2/2	5.20s
एकूण चाचण्या 2 चुकीच्या चाचण्या 0 एकूण खर्च $1.785 प्रतिसाद वेळ (सरासरी) 5.20s

डेटा पार्सिंग आणि निष्कर्षण क्रमवारी

मॉडेल फिल्टर करा

डेटा पार्सिंग आणि निष्कर्षण स्कोअर नुसार शीर्ष मॉडेल्स

डेटा पार्सिंग आणि निष्कर्षण स्कोअर विरुद्ध एकूण खर्च

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स