AI BENCHY श्रेणी विफलताएँ
संयुक्त: अमान्य टूल कॉल
संयुक्त
अमान्य टूल कॉल
देखें कि संयुक्त में किन AI मॉडलों में अमान्य टूल कॉल आने की सबसे अधिक संभावना है, ताकि आप कमजोरियाँ जल्दी पहचान सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
विफलता के कारण
श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | श्रेणी स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.5 | 0/1 | 115.9s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 2.8 | 0/1 | 65.6s |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 4.5 | 0/1 | 60.4s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 4.7 | 0/1 | 41.0s |
| #75 | GLM 5.1 none | Z.ai | 1 | 2.8 | 0/1 | 32.6s |
| #31 | GLM 5V Turbo medium | Z.ai | 1 | 6.9 | 0/1 | 15.1s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 3.0 | 0/1 | 6.48s |
| #82 | Grok 4.20 none | X AI | 1 | 3.0 | 0/1 | 6.04s |
| #90 | Qwen3.5-9B none | Qwen | 1 | 3.0 | 0/1 | 5.91s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 3.0 | 0/1 | 3.22s |