AI BENCHY
Advertise here

AI BENCHY زمرہ ناکامیاں

مشترکہ: غیر معتبر ٹول کال

مشترکہ
غیر معتبر ٹول کال

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غیر معتبر ٹول کال پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔

دکھائے گئے ماڈلز

4

کل ناکامیاں

19

سب سے زیادہ متاثر ماڈل

Gemini 3.5 Flash 1
درجہ ماڈل کمپنی غیر معتبر ٹول کال کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#145 Laguna M.1 none Poolside 1 3.0 0/1 4.32s
#154 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#158 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s
#163 Granite 4.1 8B none IBM Granite 1 3.0 0/1 1.88s

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز