टूल कॉलिंग x API त्रुटी क्रमवारी

टूल कॉलिंग मध्ये कोणत्या AI मॉडेल्सना API त्रुटी येण्याची शक्यता जास्त आहे ते पाहा, म्हणजे कमकुवत बाजू लवकर ओळखता येतील. क्रम लावा: प्रतिसाद वेळ (सरासरी) ↑.

दाखवलेली मॉडेल्स

एकूण अपयशे

सर्वाधिक प्रभावित मॉडेल

Kimi K3 1

अयशस्वी होण्याची कारणे

API त्रुटी17 अवैध टूल कॉल9 सूचनांचे पालन केले नाही8 चुकीचे उत्तर3 उत्तर नाही2

श्रेणी

कोडिंग45 संयुक्त26 टूल कॉलिंग17 अँटी-एआय युक्त्या14 डेटा पार्सिंग आणि निष्कर्षण14 सामान्य ज्ञान13 Samanya Buddhimatta12 कोडी सोडवणे12 डोमेन-विशिष्ट7 सूचनांचे पालन1

17/17

क्रमांक	मॉडेल	कंपनी	API त्रुटी संख्या	श्रेणी स्कोअर	एकूण खर्च	बरोबर चाचण्या	प्रतिसाद वेळ (सरासरी)
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $3.112 प्रतिसाद वेळ (सरासरी) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.751	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.751 प्रतिसाद वेळ (सरासरी) 0ms
#74	GLM 5.1 medium	Z.ai	1	3.0	$0.535	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.535 प्रतिसाद वेळ (सरासरी) 0ms
#79	Gemini 3.5 Flash none	Google	1	3.0	$1.079	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $1.079 प्रतिसाद वेळ (सरासरी) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.746 प्रतिसाद वेळ (सरासरी) 0ms
#110	Gemma 4 31B medium	Google	1	3.0	$0.163	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.163 प्रतिसाद वेळ (सरासरी) 0ms
#115	Gemma 4 31B none	Google	1	3.0	$0.035	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.035 प्रतिसाद वेळ (सरासरी) 0ms
#161	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.061	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.061 प्रतिसाद वेळ (सरासरी) 0ms
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.026 प्रतिसाद वेळ (सरासरी) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	3.0	$5.599	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $5.599 प्रतिसाद वेळ (सरासरी) 0ms
#202	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.547 प्रतिसाद वेळ (सरासरी) 0ms
#206	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.010 प्रतिसाद वेळ (सरासरी) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.000 प्रतिसाद वेळ (सरासरी) 0ms
#209	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	0ms
एकूण चाचण्या 1 चुकीच्या चाचण्या 1 एकूण खर्च $0.020 प्रतिसाद वेळ (सरासरी) 0ms

मॉडेल फिल्टर करा

API त्रुटी संख्या नुसार शीर्ष मॉडेल्स

API त्रुटी संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स

टूल कॉलिंग: API त्रुटी

मॉडेल फिल्टर करा

API त्रुटी संख्या नुसार शीर्ष मॉडेल्स

API त्रुटी संख्या वि स्कोअर

प्रतिसाद वेळ (सरासरी) नुसार शीर्ष मॉडेल्स

अंदाजित वाया गेलेला खर्च नुसार शीर्ष मॉडेल्स