डेटा पार्सिंग आणि निष्कर्षण x चुकीचे उत्तर क्रमवारी

डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↓.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Qwen3 Coder Next 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर41 API त्रुटी14 उत्तर नाही8 अतिरिक्त फॉरमॅटिंग6 वेळ संपला1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

36/36

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#187	Qwen3 Coder Next medium	Qwen	1	6.5	$0.032	1/2	81.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.032 प्रतिसाद वेळ (सरासरी) 81.8s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 45.9s
#155	Kimi K2.5 none	Moonshot AI	1	7.3	$0.127	1/2	42.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.127 प्रतिसाद वेळ (सरासरी) 42.1s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 37.4s
#172	MiniMax M2.7 medium	Minimax	1	6.3	$0.163	1/2	21.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 21.9s
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 21.4s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 18.8s
#188	Cobuddy medium	Baidu	1	6.3	$0.000	1/2	17.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 17.4s
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 17.2s
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 12.3s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 11.0s
#173	DeepSeek V3.2 none	DeepSeek	1	6.3	$0.054	1/2	9.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.054 प्रतिसाद वेळ (सरासरी) 9.42s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 9.33s
#178	Ling-2.6-flash none	Inclusionai	1	6.5	$0.002	1/2	8.48s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.002 प्रतिसाद वेळ (सरासरी) 8.48s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 7.48s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

डेटा पार्सिंग आणि निष्कर्षण: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स