अमान्य टूल कॉल विफलता रैंकिंग

देखें कि किन AI मॉडलों में अमान्य टूल कॉल सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.

दिखाए गए मॉडल

कुल विफलताएँ

100

सबसे अधिक प्रभावित मॉडल

Granite 4.1 8B 2

श्रेणियाँ

संयुक्त श्रेणी में91 टूल कॉलिंग श्रेणी में9

83/83

रैंक	मॉडल	कंपनी	अमान्य टूल कॉल संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
कुल टेस्ट 22 गलत टेस्ट 20 कुल लागत $0.007 प्रतिक्रिया समय (औसत) 1.45s
#162	Ling-2.6-1T none	Inclusionai	1	5.3	$0.016	4/22	8.58s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.016 प्रतिक्रिया समय (औसत) 8.58s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.021 प्रतिक्रिया समय (औसत) 19.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 29.9s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
कुल टेस्ट 22 गलत टेस्ट 18 कुल लागत $0.166 प्रतिक्रिया समय (औसत) 142.6s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
कुल टेस्ट 19 गलत टेस्ट 15 कुल लागत $0.009 प्रतिक्रिया समय (औसत) 2.89s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.044 प्रतिक्रिया समय (औसत) 36.8s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.008 प्रतिक्रिया समय (औसत) 1.55s
#172	MiniMax M2.7 medium	Minimax	1	5.0	$0.163	5/22	41.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.163 प्रतिक्रिया समय (औसत) 41.3s
#190	MiniMax M2.5 medium	Minimax	1	4.6	$0.340	5/22	68.3s
कुल टेस्ट 22 गलत टेस्ट 17 कुल लागत $0.340 प्रतिक्रिया समय (औसत) 68.3s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
कुल टेस्ट 21 गलत टेस्ट 16 कुल लागत $0.000 प्रतिक्रिया समय (औसत) 1.22s
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
कुल टेस्ट 19 गलत टेस्ट 14 कुल लागत $0.004 प्रतिक्रिया समय (औसत) 806ms
#142	Qwen3.5-122B-A10B none	Qwen	1	5.7	$0.247	6/22	12.9s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.247 प्रतिक्रिया समय (औसत) 12.9s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.142 प्रतिक्रिया समय (औसत) 1.50s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
कुल टेस्ट 22 गलत टेस्ट 16 कुल लागत $0.147 प्रतिक्रिया समय (औसत) 3.50s

1 2 3 4 5 6

→

अमान्य टूल कॉल विफलताएँ

मॉडल फ़िल्टर करें

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल