संयुक्त x अमान्य टूल कॉल रैंकिंग

देखें कि संयुक्त में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.

दिखाए गए मॉडल

कुल विफलताएँ

सबसे अधिक प्रभावित मॉडल

Laguna M.1 1

विफलता के कारण

अमान्य टूल कॉल91 गलत उत्तर68 कोई उत्तर नहीं29 API त्रुटि26 समय समाप्त5 अतिरिक्त फॉर्मेटिंग1 निर्देशों का पालन नहीं किया1

श्रेणियाँ

संयुक्त91 टूल कॉलिंग9

77/77

रैंक	मॉडल	कंपनी	अमान्य टूल कॉल संख्या	श्रेणी स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#192	Laguna M.1 none	Poolside	1	1.5	$0.009	0/1	4.32s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 4.32s
#197	Grok 4.20 none	X AI	1	1.5	$0.057	0/1	6.04s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.057 प्रतिक्रिया समय (औसत) 6.04s
#191	Grok 4.20 Beta none	X AI	1	1.5	$0.087	0/1	6.48s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.087 प्रतिक्रिया समय (औसत) 6.48s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 6.68s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.349 प्रतिक्रिया समय (औसत) 7.02s
#78	Mercury 2 medium	Inception	1	6.7	$0.093	1/2	7.84s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.093 प्रतिक्रिया समय (औसत) 7.84s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 9.28s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.519 प्रतिक्रिया समय (औसत) 9.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 10.4s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.249 प्रतिक्रिया समय (औसत) 13.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 13.7s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
कुल टेस्ट 2 गलत टेस्ट 2 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 14.4s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
कुल टेस्ट 1 गलत टेस्ट 1 कुल लागत $0.457 प्रतिक्रिया समय (औसत) 15.1s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.2	$0.115	1/2	16.6s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.115 प्रतिक्रिया समय (औसत) 16.6s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.2	$0.117	1/2	18.5s
कुल टेस्ट 2 गलत टेस्ट 1 कुल लागत $0.117 प्रतिक्रिया समय (औसत) 18.5s

1 2 3 4 5 6

→

मॉडल फ़िल्टर करें

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल

संयुक्त: अमान्य टूल कॉल

मॉडल फ़िल्टर करें

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल

अनुमानित व्यर्थ लागत के अनुसार शीर्ष मॉडल