डेटा पार्सिंग आणि निष्कर्षण x चुकीचे उत्तर क्रमवारी

डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Granite 4.1 8B 2

अयशस्वी होण्याची कारणे

चुकीचे उत्तर41 API त्रुटी14 उत्तर नाही8 अतिरिक्त फॉरमॅटिंग6 वेळ संपला1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

36/36

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	575ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.007 प्रतिसाद वेळ (सरासरी) 575ms
#189	Mercury 2 none	Inception	1	7.3	$0.030	1/2	667ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.030 प्रतिसाद वेळ (सरासरी) 667ms
#210	LFM2-24B-A2B none	Liquid	2	3.0	$0.001	0/2	714ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.001 प्रतिसाद वेळ (सरासरी) 714ms
#195	Elephant Alpha medium	Openrouter	1	6.5	$0.000	1/2	979ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 979ms
#193	Elephant Alpha none	Openrouter	1	6.5	$0.000	1/2	1.04s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.04s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.11s
#180	GPT-5.4 Nano none	OpenAI	1	6.5	$0.041	1/2	1.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.041 प्रतिसाद वेळ (सरासरी) 1.11s
#166	Qwen3 Coder Next none	Qwen	1	6.5	$0.025	1/2	1.32s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 1.32s
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	2	3.8	$0.000	0/2	1.42s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 1.42s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.77s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 1.98s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 2.06s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 2.27s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 2.29s
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	7.3	$0.000	1/2	2.72s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 2.72s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

डेटा पार्सिंग आणि निष्कर्षण: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स