AI BENCHY
Advertise here

AI BENCHY ناکامیاں

غیر معتبر ٹول کال ناکامیاں

دیکھیں کہ کن AI ماڈلز میں غیر معتبر ٹول کال سب سے زیادہ ہوتا ہے، تاکہ آپ انتخاب سے پہلے قابلِ اعتماد ہونے کے خطرات سمجھ سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↓.

دکھائے گئے ماڈلز

9

کل ناکامیاں

26

سب سے زیادہ متاثر ماڈل

MiniMax M2.5 1
درجہ ماڈل کمپنی غیر معتبر ٹول کال کی تعداد اسکور درست ٹیسٹس ردِعمل کا وقت (اوسط)
#154 Qwen3.5-9B none Qwen 1 4.6 4/21 1.89s
#128 Qwen3.6 Flash none Qwen 1 5.4 7/21 1.60s
#32 Gemini 3.5 Flash minimal Google 1 7.7 14/21 1.57s
#136 Elephant Alpha medium Openrouter 1 5.1 6/21 1.27s
#137 Elephant Alpha none Openrouter 1 5.1 5/21 1.22s
#106 Grok 4.20 Beta none X AI 1 5.8 6/18 1.19s
#127 Grok 4.20 none X AI 1 5.4 6/18 1.11s
#146 Laguna Xs.2 none Poolside 1 4.8 5/19 806ms
#163 Granite 4.1 8B none IBM Granite 1 4.0 2/21 728ms

غیر معتبر ٹول کال کی تعداد کے لحاظ سے سرفہرست ماڈلز

غیر معتبر ٹول کال کی تعداد بمقابلہ اسکور

ردِعمل کا وقت (اوسط) کے لحاظ سے سرفہرست ماڈلز