AI BENCHY زمرہ ناکامیاں
مشترکہ: غیر معتبر ٹول کال
مشترکہ
غیر معتبر ٹول کال
دیکھیں کہ مشترکہ میں کن AI ماڈلز کو غیر معتبر ٹول کال پیش آنے کا سب سے زیادہ امکان ہے، تاکہ آپ کمزوریاں جلدی پہچان سکیں۔ ترتیب دیں حسب: ردِعمل کا وقت (اوسط) ↑.
ناکامی کی وجوہات
زمرے
| درجہ | ماڈل | کمپنی | غیر معتبر ٹول کال کی تعداد | زمرہ اسکور | درست ٹیسٹس | ردِعمل کا وقت (اوسط) |
|---|---|---|---|---|---|---|
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 3.22s |
| #90 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 5.91s |
| #82 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #75 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 2.8 | 0/1 | 65.6s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.5 | 0/1 | 115.9s |