डेटा पार्सिंग आणि निष्कर्षण x चुकीचे उत्तर क्रमवारी

डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणत्या AI मॉडेल्सना चुकीचे उत्तर येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: अपयशांची संख्या ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Claude Opus 4.8 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर41 API त्रुटी14 उत्तर नाही8 अतिरिक्त फॉरमॅटिंग6 वेळ संपला1

श्रेणी

डोमेन-विशिष्ट412 अँटी-एआय युक्त्या293 कोडिंग252 कोडी सोडवणे201 सामान्य ज्ञान168 संयुक्त68 सूचनांचे पालन61 Samanya Buddhimatta59 डेटा पार्सिंग आणि निष्कर्षण41 टूल कॉलिंग3

36/36

क्रमांक	मॉडेल	कंपनी	चुकीचे उत्तर संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#14	Claude Opus 4.8 medium	Anthropic	1	7.1	$1.931	1/2	12.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.931 प्रतिसाद वेळ (सरासरी) 12.3s
#41	Claude Opus 4.8 low	Anthropic	1	6.3	$2.077	1/2	2.27s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $2.077 प्रतिसाद वेळ (सरासरी) 2.27s
#66	Claude Opus 4.8 none	Anthropic	1	7.3	$1.166	1/2	1.77s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.166 प्रतिसाद वेळ (सरासरी) 1.77s
#67	Step 3.7 Flash low	Stepfun	1	7.3	$0.454	1/2	2.29s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.454 प्रतिसाद वेळ (सरासरी) 2.29s
#78	Mercury 2 medium	Inception	1	7.3	$0.093	1/2	1.11s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.093 प्रतिसाद वेळ (सरासरी) 1.11s
#81	KAT-Coder-Pro V2.5 medium	Kwaipilot	1	7.3	$0.467	1/2	4.70s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.467 प्रतिसाद वेळ (सरासरी) 4.70s
#84	MiMo-V2.5-Pro medium	Xiaomi	1	7.3	$0.187	1/2	18.8s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.187 प्रतिसाद वेळ (सरासरी) 18.8s
#97	LongCat 2.0 high	Meituan	1	3.6	$0.469	0/2	11.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.469 प्रतिसाद वेळ (सरासरी) 11.0s
#101	MiMo-V2.5 medium	Xiaomi	1	2.7	$0.082	0/2	6.33s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.082 प्रतिसाद वेळ (सरासरी) 6.33s
#108	Ring-2.6-1T medium	Inclusionai	1	6.5	$0.103	1/2	37.4s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.103 प्रतिसाद वेळ (सरासरी) 37.4s
#109	Mimo V2 PRO medium	Xiaomi	1	7.3	$0.333	1/2	17.2s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.333 प्रतिसाद वेळ (सरासरी) 17.2s
#121	gpt-oss-120b medium	OpenAI	1	6.4	$0.019	1/2	1.98s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.019 प्रतिसाद वेळ (सरासरी) 1.98s
#144	KAT-Coder-Air V2.5 high	Kwaipilot	1	6.5	$0.077	1/2	3.59s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.077 प्रतिसाद वेळ (सरासरी) 3.59s
#149	KAT-Coder-Air V2.5 medium	Kwaipilot	1	6.5	$0.048	1/2	3.65s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 3.65s
#152	Qwen3.6 27B none	Qwen	1	7.3	$0.087	1/2	2.06s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.087 प्रतिसाद वेळ (सरासरी) 2.06s

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

डेटा पार्सिंग आणि निष्कर्षण: चुकीचे उत्तर

मॉडेल फिल्टर करा

चुकीचे उत्तर संख्या नुसार शीर्ष मॉडेल्स

चुकीचे उत्तर संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स