غیر معتبر ٹول کال ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غیر معتبر ٹول کال سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

کل ناکامیاں

100

سب سے زیادہ متاثر ماڈل

Laguna Xs.2 1

زمرے

زمرہ مشترکہ میں91 زمرہ ٹول کالنگ میں9

83/83

درجہ	ماڈل	کمپنی	غیر معتبر ٹول کال کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
کل ٹیسٹس 19 غلط ٹیسٹس 14 کل لاگت $0.004 ردِعمل کا وقت (اوسط) 806ms
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.057 ردِعمل کا وقت (اوسط) 1.11s
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
کل ٹیسٹس 18 غلط ٹیسٹس 12 کل لاگت $0.087 ردِعمل کا وقت (اوسط) 1.19s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
کل ٹیسٹس 21 غلط ٹیسٹس 16 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.22s
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	6/21	1.27s
کل ٹیسٹس 21 غلط ٹیسٹس 15 کل لاگت $0.000 ردِعمل کا وقت (اوسط) 1.27s
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
کل ٹیسٹس 22 غلط ٹیسٹس 20 کل لاگت $0.007 ردِعمل کا وقت (اوسط) 1.45s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.142 ردِعمل کا وقت (اوسط) 1.50s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
کل ٹیسٹس 22 غلط ٹیسٹس 17 کل لاگت $0.008 ردِعمل کا وقت (اوسط) 1.55s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
کل ٹیسٹس 22 غلط ٹیسٹس 14 کل لاگت $0.349 ردِعمل کا وقت (اوسط) 1.65s
#88	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 2.65s
#78	Mercury 2 medium	Inception	1	7.0	$0.093	10/22	2.72s
کل ٹیسٹس 22 غلط ٹیسٹس 12 کل لاگت $0.093 ردِعمل کا وقت (اوسط) 2.72s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
کل ٹیسٹس 19 غلط ٹیسٹس 15 کل لاگت $0.009 ردِعمل کا وقت (اوسط) 2.89s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
کل ٹیسٹس 22 غلط ٹیسٹس 16 کل لاگت $0.147 ردِعمل کا وقت (اوسط) 3.50s
#124	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
کل ٹیسٹس 22 غلط ٹیسٹس 15 کل لاگت $0.062 ردِعمل کا وقت (اوسط) 3.74s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
کل ٹیسٹس 22 غلط ٹیسٹس 9 کل لاگت $0.117 ردِعمل کا وقت (اوسط) 4.27s

1 2 3 4 5 6

→

غیر معتبر ٹول کال ناکامیاں

ماڈلز فلٹر کریں

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز