مشترکہ x غیر معتبر ٹول کال درجہ بندی

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غیر معتبر ٹول کال پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Qwen3.6 35B A3B 1

ناکامی کی وجوہات

غیر معتبر ٹول کال91 غلط جواب68 کوئی جواب نہیں29 API خرابی26 ٹائم آؤٹ5 اضافی فارمیٹنگ1 ہدایات پر عمل نہیں کیا1

زمرے

مشترکہ91 ٹول کالنگ9

77/77

درجہ	ماڈل	کمپنی	غیر معتبر ٹول کال کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 817.6s
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.166 ردِعمل کا وقت (اوسط) 802.8s
#58	Qwen3.5-27B medium	Qwen	1	7.3	$1.627	1/2	595.2s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.627 ردِعمل کا وقت (اوسط) 595.2s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 584.1s
#137	North Mini Code medium	Cohere	1	2.9	$0.000	0/2	554.9s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 554.9s
#119	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 512.8s
#95	Gemma 4 26B A4B medium	Google	1	6.3	$0.089	1/2	492.9s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 492.9s
#68	Kimi K2.6 medium	Moonshot AI	1	6.9	$1.036	1/2	458.6s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.036 ردِعمل کا وقت (اوسط) 458.6s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 433.1s
#72	Qwen3.5-122B-A10B medium	Qwen	1	6.4	$1.046	1/2	313.5s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 313.5s
#85	Qwen3.6 Flash medium	Qwen	1	6.5	$0.738	1/2	299.2s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.738 ردِعمل کا وقت (اوسط) 299.2s
#8	Qwen3.7 Max medium	Qwen	1	8.7	$1.116	1/2	287.8s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.116 ردِعمل کا وقت (اوسط) 287.8s
#114	Qwen3.5-Flash medium	Qwen	1	6.4	$0.139	1/2	266.6s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.139 ردِعمل کا وقت (اوسط) 266.6s
#108	Ring-2.6-1T medium	Inclusionai	1	7.3	$0.103	1/2	257.3s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.103 ردِعمل کا وقت (اوسط) 257.3s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 243.6s

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

مشترکہ: غیر معتبر ٹول کال

ماڈلز فلٹر کریں

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز