AI BENCHY زمرہ ناکامیاں
مشترکہ: غیر معتبر ٹول کال
مشترکہ
غیر معتبر ٹول کال
دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غیر معتبر ٹول کال پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
زمرے
| درجہ | ماڈل | کمپنی | غیر معتبر ٹول کال کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 3.0 | 0/1 | 1.88s |
| #122 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 3.22s |
| #32 | Gemini 3.5 Flash minimal | 1 | 3.0 | 0/1 | 3.56s | |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 3.0 | 0/1 | 4.22s |
| #145 | Laguna M.1 none | Poolside | 1 | 3.0 | 0/1 | 4.32s |
| #154 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 5.91s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #118 | Qwen3.6 27B none | Qwen | 1 | 3.0 | 0/1 | 9.95s |
| #59 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #112 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #138 | Ling-2.6-flash none | Inclusionai | 1 | 3.0 | 0/1 | 35.3s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #119 | Cobuddy medium | Baidu | 1 | 3.0 | 0/1 | 47.4s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |