مشترکہ x غیر معتبر ٹول کال درجہ بندی

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غیر معتبر ٹول کال پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Muse Spark 1.1 2

ناکامی کی وجوہات

غیر معتبر ٹول کال91 غلط جواب68 کوئی جواب نہیں29 API خرابی26 ٹائم آؤٹ5 اضافی فارمیٹنگ1 ہدایات پر عمل نہیں کیا1

زمرے

مشترکہ91 ٹول کالنگ9

77/77

درجہ	ماڈل	کمپنی	غیر معتبر ٹول کال کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#27	Muse Spark 1.1 high	Meta	2	5.9	$1.694	0/2	70.3s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $1.694 ردِعمل کا وقت (اوسط) 70.3s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 14.4s
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.746 ردِعمل کا وقت (اوسط) 817.6s
#92	KAT-Coder-Pro V2.5 none	Kwaipilot	1	4.1	$0.476	0/2	183.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.476 ردِعمل کا وقت (اوسط) 183.1s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 15.1s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.779 ردِعمل کا وقت (اوسط) 584.1s
#104	Gemini 3.1 Flash Lite Preview low	Google	1	3.0	$0.646	0/2	160.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.646 ردِعمل کا وقت (اوسط) 160.6s
#105	Gemini 3.1 Flash Lite low	Google	1	3.2	$0.621	0/2	161.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.621 ردِعمل کا وقت (اوسط) 161.2s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.163 ردِعمل کا وقت (اوسط) 433.1s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 13.7s
#118	Gemini 2.5 Flash none	Google	1	3.0	$0.017	0/2	61.2s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.017 ردِعمل کا وقت (اوسط) 61.2s
#119	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.837 ردِعمل کا وقت (اوسط) 512.8s
#123	Inkling low	Thinkingmachines	2	2.9	$0.187	0/2	22.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.187 ردِعمل کا وقت (اوسط) 22.7s
#124	Qwen3.6 Flash none	Qwen	2	3.8	$0.062	0/2	26.5s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 26.5s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.073 ردِعمل کا وقت (اوسط) 243.6s

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

مشترکہ: غیر معتبر ٹول کال

ماڈلز فلٹر کریں

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز