डेटा पार्सिंग आणि निष्कर्षण x चुकीचे उत्तर क्रमवारी

डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: बरोबर चाचण्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

LongCat 2.0 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर41 API त्रुटी14 उत्तर नाही8 अतिरिक्त फॉरमॅटिंग6 वेळ संपला1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

36/36

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 6.33s
#128	GPT-5 Nano medium	OpenAI	2	3.7	$0.114	0/2	21.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.114 प्रतिसाद वेळ (सरासरी) 21.4s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 45.9s
#190	MiniMax M2.5 medium	Minimax	2	4.6	$0.340	0/2	7.48s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.340 प्रतिसाद वेळ (सरासरी) 7.48s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 575ms
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 9.33s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.42s
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 714ms
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 4.70s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

डेटा पार्सिंग आणि निष्कर्षण: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स