टूल कॉलिंग x API त्रुटि रैंकिंग

देखें कि टूल कॉलिंग में किन AI मॉडलों में API त्रुटि आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Kimi K3 1

विफलता के कारण

API त्रुटि17 अमान्य टूल कॉल9 निर्देशों का पालन नहीं किया8 गलत उत्तर3 कोई उत्तर नहीं2

श्रेणियाँ

कोडिंग45 संयुक्त26 टूल कॉलिंग17 एंटी-एआई ट्रिक्स14 डेटा पार्सिंग और निष्कर्षण14 सामान्य ज्ञान13 Samanya Buddhimatta12 पहेली समाधान12 डोमेन-विशिष्ट7 निर्देश पालन1

17/17

रैंक	मॉडल	कंपनी	API त्रुटि संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#33	Kimi K3 max	Moonshot AI	1	3.0	$3.112	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $3.112 प्रतिक्रिया समय (औसत) 0ms
#52	Kimi K2.7 Code medium	Moonshot AI	1	3.0	$0.751	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.751 प्रतिक्रिया समय (औसत) 0ms
#74	GLM 5.1 medium	Z.ai	1	3.0	$0.535	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.535 प्रतिक्रिया समय (औसत) 0ms
#79	Gemini 3.5 Flash none	Google	1	3.0	$1.079	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $1.079 प्रतिक्रिया समय (औसत) 0ms
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.746 प्रतिक्रिया समय (औसत) 0ms
#110	Gemma 4 31B medium	Google	1	3.0	$0.163	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 0ms
#115	Gemma 4 31B none	Google	1	3.0	$0.035	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.035 प्रतिक्रिया समय (औसत) 0ms
#161	Qwen3.6 35B A3B none	Qwen	1	3.0	$0.061	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.061 प्रतिक्रिया समय (औसत) 0ms
#179	Ring-2.6-1T none	Inclusionai	1	3.0	$0.026	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.026 प्रतिक्रिया समय (औसत) 0ms
#181	Grok 4.20 Multi Agent Beta medium	X AI	1	3.0	$5.599	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $5.599 प्रतिक्रिया समय (औसत) 0ms
#202	Grok Build 0.1 none	X AI	1	3.0	$0.547	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.547 प्रतिक्रिया समय (औसत) 0ms
#206	gpt-oss-120b none	OpenAI	1	3.0	$0.010	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.010 प्रतिक्रिया समय (औसत) 0ms
#207	Nemotron 3 Nano Omni 30b A3b Reasoning medium	NVIDIA	1	3.0	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#208	Nemotron 3 Nano Omni 30b A3b Reasoning none	NVIDIA	1	3.0	$0.000	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 0ms
#209	Step 3.5 Flash none	Stepfun	1	3.0	$0.020	0/1	0ms
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.020 प्रतिक्रिया समय (औसत) 0ms

मॉडल फ़िल्टर करें

API त्रुटि संख्या के अनुसार शीर्ष मॉडल

API त्रुटि संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

टूल कॉलिंग: API त्रुटि

मॉडल फ़िल्टर करें

API त्रुटि संख्या के अनुसार शीर्ष मॉडल

API त्रुटि संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल