डेटा पार्सिंग आणि निष्कर्षण x API त्रुटी क्रमवारी

डेटा पार्सिंग आणि निष्कर्षण मध्ये कोणत्या AI मॉडेल्सना API त्रुटी येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

MiMo-V2-Flash 1

अयशस्वी होण्याची कारणे

चुकीचे उत्तर41 API त्रुटी14 उत्तर नाही8 अतिरिक्त फॉरमॅटिंग6 वेळ संपला1

श्रेणी

कोडिंग45 संयुक्त26 टूल कॉलिंग17 अँटी-एआय युक्त्या14 डेटा पार्सिंग आणि निष्कर्षण14 सामान्य ज्ञान13 Samanya Buddhimatta12 कोडी सोडवणे12 डोमेन-विशिष्ट7 सूचनांचे पालन1

14/14

क्रमांक	मॉडेल	कंपनी	API त्रुटी संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#113	MiMo-V2-Flash medium	Xiaomi	1	6.5	$0.043	1/2	0ms
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.043 प्रतिसाद वेळ (सरासरी) 0ms
#209	Step 3.5 Flash none	Stepfun	1	1.5	$0.020	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 0ms
#167	Mistral Small 4 medium	Mistral	1	7.3	$0.096	1/2	1.23s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.096 प्रतिसाद वेळ (सरासरी) 1.23s
#199	Hy3 preview none	Tencent	1	6.5	$0.003	1/2	2.85s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.003 प्रतिसाद वेळ (सरासरी) 2.85s
#100	Hy3 preview medium	Tencent	1	6.5	$0.018	1/2	5.25s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.018 प्रतिसाद वेळ (सरासरी) 5.25s
#153	Hy3 preview low	Tencent	1	6.5	$0.015	1/2	5.85s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.015 प्रतिसाद वेळ (सरासरी) 5.85s
#206	gpt-oss-120b none	OpenAI	1	6.5	$0.010	1/2	7.12s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 7.12s
#79	Gemini 3.5 Flash none	Google	1	6.5	$1.079	1/2	8.10s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 8.10s
#202	Grok Build 0.1 none	X AI	1	3.8	$0.547	0/2	9.33s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 9.33s
#135	Hy3 preview high	Tencent	1	6.5	$0.048	1/2	12.1s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.048 प्रतिसाद वेळ (सरासरी) 12.1s
#200	MiMo-V2-Flash none	Xiaomi	1	2.9	$0.025	0/2	19.7s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.025 प्रतिसाद वेळ (सरासरी) 19.7s
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/2	45.9s
एकूण चाचण्या 2 चुकीच्या चाचण्या 2 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 45.9s
#114	Qwen3.5-Flash medium	Qwen	1	7.3	$0.139	1/2	57.0s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.139 प्रतिसाद वेळ (सरासरी) 57.0s
#119	Qwen3.5-35B-A3B medium	Qwen	1	7.3	$0.837	1/2	59.3s
एकूण चाचण्या 2 चुकीच्या चाचण्या 1 एकूण खर्च $0.837 प्रतिसाद वेळ (सरासरी) 59.3s

मॉडेल फिल्टर करा

API त्रुटी संख्या नुसार शीर्ष मॉडेल्स

API त्रुटी संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

डेटा पार्सिंग आणि निष्कर्षण: API त्रुटी

मॉडेल फिल्टर करा

API त्रुटी संख्या नुसार शीर्ष मॉडेल्स

API त्रुटी संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स