مشترکہ x غیر معتبر ٹول کال درجہ بندی

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غیر معتبر ٹول کال پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

سب سے زیادہ متاثر ماڈل

Laguna M.1 1

ناکامی کی وجوہات

غیر معتبر ٹول کال91 غلط جواب68 کوئی جواب نہیں29 API خرابی26 ٹائم آؤٹ5 اضافی فارمیٹنگ1 ہدایات پر عمل نہیں کیا1

زمرے

مشترکہ91 ٹول کالنگ9

77/77

درجہ	ماڈل	کمپنی	غیر معتبر ٹول کال کی تعداد	زمرہ اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#192	Laguna M.1 none	Poolside	1	1.5	$0.009	0/1	4.32s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 4.32s
#197	Grok 4.20 none	X AI	1	1.5	$0.057	0/1	6.04s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 6.04s
#191	Grok 4.20 Beta none	X AI	1	1.5	$0.087	0/1	6.48s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 6.48s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 6.68s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 7.02s
#78	Mercury 2 medium	Inception	1	6.7	$0.093	1/2	7.84s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 7.84s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 9.28s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.519 ردِعمل کا وقت (اوسط) 9.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 10.4s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.249 ردِعمل کا وقت (اوسط) 13.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 13.7s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
کل ٹیسٹس 2 غلط ٹیسٹس 2 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 14.4s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
کل ٹیسٹس 1 غلط ٹیسٹس 1 کل لاگت $0.457 ردِعمل کا وقت (اوسط) 15.1s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.2	$0.115	1/2	16.6s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.115 ردِعمل کا وقت (اوسط) 16.6s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.2	$0.117	1/2	18.5s
کل ٹیسٹس 2 غلط ٹیسٹس 1 کل لاگت $0.117 ردِعمل کا وقت (اوسط) 18.5s

1 2 3 4 5 6

→

ماڈلز فلٹر کریں

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز

مشترکہ: غیر معتبر ٹول کال

ماڈلز فلٹر کریں

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز