AI BENCHY विफलताएँ
अमान्य टूल कॉल विफलताएँ
देखें कि किन AI मॉडलों में अमान्य टूल कॉल सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #71 | MiniMax M2.5 medium | Minimax | 1 | 5.7 | 5/18 | 39.6s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 4.6 | 4/18 | 32.3s |
| #80 | MiniMax M2.7 medium | Minimax | 1 | 5.3 | 4/18 | 31.1s |
| #31 | GLM 5V Turbo medium | Z.ai | 2 | 7.8 | 11/18 | 15.0s |
| #64 | DeepSeek V3.2 none | DeepSeek | 1 | 6.1 | 7/18 | 12.1s |
| #75 | GLM 5.1 none | Z.ai | 1 | 5.6 | 5/18 | 4.33s |
| #74 | GLM 4.7 Flash none | Z.ai | 1 | 5.6 | 5/18 | 3.35s |
| #90 | Qwen3.5-9B none | Qwen | 1 | 4.8 | 4/18 | 1.47s |
| #81 | Elephant medium | Openrouter | 1 | 5.2 | 5/18 | 1.27s |
| #85 | Elephant none | Openrouter | 1 | 5.2 | 5/18 | 1.23s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 5.3 | 4/18 | 1.19s |
| #82 | Grok 4.20 none | X AI | 1 | 5.2 | 5/18 | 1.11s |