AI BENCHY
Your ad here

AI BENCHY زمرہ ناکامیاں

مشترکہ: غیر معتبر ٹول کال

مشترکہ
غیر معتبر ٹول کال

دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غیر معتبر ٹول کال پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.

دکھائے گئے ماڈلز

10

کل ناکامیاں

10

سب سے زیادہ متاثر ماڈل

GLM 4.7 Flash 1
درجہ ماڈل کمپنی غیر معتبر ٹول کال کی تعداد زمرہ اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#74 GLM 4.7 Flash none Z.ai 1 3.0 0/1 3.22s
#90 Qwen3.5-9B none Qwen 1 3.0 0/1 5.91s
#82 Grok 4.20 none X AI 1 3.0 0/1 6.04s
#79 Grok 4.20 Beta none X AI 1 3.0 0/1 6.48s
#31 GLM 5V Turbo medium Z.ai 1 6.9 0/1 15.1s
#75 GLM 5.1 none Z.ai 1 2.8 0/1 32.6s
#80 MiniMax M2.7 medium Minimax 1 4.7 0/1 41.0s
#71 MiniMax M2.5 medium Minimax 1 4.5 0/1 60.4s
#93 GLM 4.7 Flash medium Z.ai 1 2.8 0/1 65.6s
#64 DeepSeek V3.2 none DeepSeek 1 6.5 0/1 115.9s

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز

تخمینی ضائع لاگت کے لحاظ سے سرفہرست ماڈلز