संयुक्त x अमान्य टूल कॉल रैंकिंग

देखें कि संयुक्त में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें।

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

विफलता के कारण

अमान्य टूल कॉल91 गलत उत्तर68 कोई उत्तर नहीं29 API त्रुटि26 समय समाप्त5 अतिरिक्त फॉर्मेटिंग1 निर्देशों का पालन नहीं किया1

श्रेणियाँ

संयुक्त91 टूल कॉलिंग9

77/77

रैंक	मॉडल	कंपनी	अमान्य टूल कॉल संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#27	Muse Spark 1.1 high	Meta	2	5.9	$1.694	0/2	70.3s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $1.694 प्रतिक्रिया समय (औसत) 70.3s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 14.4s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.779 प्रतिक्रिया समय (औसत) 584.1s
#123	Inkling low	Thinkingmachines	2	2.9	$0.187	0/2	22.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.187 प्रतिक्रिया समय (औसत) 22.7s
#124	Qwen3.6 Flash none	Qwen	2	3.8	$0.062	0/2	26.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.062 प्रतिक्रिया समय (औसत) 26.5s
#150	DeepSeek V4 Flash none	DeepSeek	2	4.6	$0.044	0/2	179.6s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 179.6s
#152	Qwen3.6 27B none	Qwen	2	3.2	$0.087	0/2	83.1s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 83.1s
#169	Qwen3.5-9B none	Qwen	2	3.0	$0.021	0/2	194.0s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 194.0s
#171	North Mini Code none	Cohere	2	3.2	$0.000	0/2	96.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 96.2s
#173	DeepSeek V3.2 none	DeepSeek	2	4.8	$0.054	0/2	113.5s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.054 प्रतिक्रिया समय (औसत) 113.5s
#176	GLM 4.7 Flash none	Z.ai	2	3.0	$0.016	0/2	50.2s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 50.2s
#178	Ling-2.6-flash none	Inclusionai	2	3.0	$0.002	0/2	35.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.002 प्रतिक्रिया समय (औसत) 35.7s
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 802.8s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 9.28s
#2	Gemini 3.5 Flash high	Google	1	8.2	$1.976	1/2	84.1s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 84.1s

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

संयुक्त: अमान्य टूल कॉल

मॉडल फ़िल्टर करें

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल