अमान्य टूल कॉल विफलता रैंकिंग

देखें कि किन AI मॉडलों में अमान्य टूल कॉल सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↓.

दिखाए गए मॉडल

कुल विफलताएँ

100

सबसे अधिक प्रभावित मॉडल

Gemini 3.5 Flash 1

श्रेणियाँ

संयुक्त श्रेणी में91 टूल कॉलिंग श्रेणी में9

83/83

रैंक	मॉडल	कंपनी	अमान्य टूल कॉल संख्या	स्कोर	कुल लागत	सही परीक्षण	प्रतिक्रिया समय (औसत)
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
कुल टेस्ट 22 गलत टेस्ट 2 कुल लागत $1.976 प्रतिक्रिया समय (औसत) 15.1s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
कुल टेस्ट 22 गलत टेस्ट 3 कुल लागत $0.433 प्रतिक्रिया समय (औसत) 5.55s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
कुल टेस्ट 22 गलत टेस्ट 4 कुल लागत $1.116 प्रतिक्रिया समय (औसत) 40.6s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
कुल टेस्ट 22 गलत टेस्ट 5 कुल लागत $3.478 प्रतिक्रिया समय (औसत) 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
कुल टेस्ट 22 गलत टेस्ट 6 कुल लागत $0.922 प्रतिक्रिया समय (औसत) 12.5s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.357 प्रतिक्रिया समय (औसत) 25.0s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $1.006 प्रतिक्रिया समय (औसत) 64.2s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.391 प्रतिक्रिया समय (औसत) 16.2s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
कुल टेस्ट 22 गलत टेस्ट 7 कुल लागत $0.267 प्रतिक्रिया समय (औसत) 51.5s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.515 प्रतिक्रिया समय (औसत) 26.4s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $1.055 प्रतिक्रिया समय (औसत) 11.3s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	7.5	$0.437	14/22	89.2s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.437 प्रतिक्रिया समय (औसत) 89.2s
#72	Qwen3.5-122B-A10B medium	Qwen	1	7.1	$1.046	14/22	64.2s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $1.046 प्रतिक्रिया समय (औसत) 64.2s
#88	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.300 प्रतिक्रिया समय (औसत) 2.65s
#95	Gemma 4 26B A4B medium	Google	1	6.6	$0.089	14/22	103.8s
कुल टेस्ट 22 गलत टेस्ट 8 कुल लागत $0.089 प्रतिक्रिया समय (औसत) 103.8s

1 2 3 4 5 6

→

अमान्य टूल कॉल विफलताएँ

मॉडल फ़िल्टर करें

अमान्य टूल कॉल संख्या के अनुसार शीर्ष मॉडल

अमान्य टूल कॉल संख्या बनाम स्कोर

प्रतिक्रिया समय (औसत) के अनुसार शीर्ष मॉडल