غیر معتبر ٹول کال ناکامی درجہ بندی

دیکھیں کہ کن AI ماڈلز میں غیر معتبر ٹول کال سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: درست ٹیسٹس ↓.

دکھائے گئے ماڈلز

کل ناکامیاں

100

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1

زمرے

زمرہ مشترکہ میں91 زمرہ ٹول کالنگ میں9

83/83

درجہ	ماڈل	کمپنی	غیر معتبر ٹول کال کی تعداد	اسکور	کل لاگت	درست ٹیسٹس	ردِعمل کا وقت (اوسط)
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
کل ٹیسٹس 22 غلط ٹیسٹس 2 کل لاگت $1.976 ردِعمل کا وقت (اوسط) 15.1s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
کل ٹیسٹس 22 غلط ٹیسٹس 3 کل لاگت $0.433 ردِعمل کا وقت (اوسط) 5.55s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
کل ٹیسٹس 22 غلط ٹیسٹس 4 کل لاگت $1.116 ردِعمل کا وقت (اوسط) 40.6s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
کل ٹیسٹس 22 غلط ٹیسٹس 5 کل لاگت $3.478 ردِعمل کا وقت (اوسط) 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
کل ٹیسٹس 22 غلط ٹیسٹس 6 کل لاگت $0.922 ردِعمل کا وقت (اوسط) 12.5s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.357 ردِعمل کا وقت (اوسط) 25.0s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $1.006 ردِعمل کا وقت (اوسط) 64.2s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.391 ردِعمل کا وقت (اوسط) 16.2s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
کل ٹیسٹس 22 غلط ٹیسٹس 7 کل لاگت $0.267 ردِعمل کا وقت (اوسط) 51.5s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.515 ردِعمل کا وقت (اوسط) 26.4s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.055 ردِعمل کا وقت (اوسط) 11.3s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	7.5	$0.437	14/22	89.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.437 ردِعمل کا وقت (اوسط) 89.2s
#72	Qwen3.5-122B-A10B medium	Qwen	1	7.1	$1.046	14/22	64.2s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $1.046 ردِعمل کا وقت (اوسط) 64.2s
#88	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.300 ردِعمل کا وقت (اوسط) 2.65s
#95	Gemma 4 26B A4B medium	Google	1	6.6	$0.089	14/22	103.8s
کل ٹیسٹس 22 غلط ٹیسٹس 8 کل لاگت $0.089 ردِعمل کا وقت (اوسط) 103.8s

1 2 3 4 5 6

→

غیر معتبر ٹول کال ناکامیاں

ماڈلز فلٹر کریں

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز