AI BENCHY विफलताएँ
अमान्य टूल कॉल विफलताएँ
देखें कि किन AI मॉडलों में अमान्य टूल कॉल सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: सही परीक्षण ↑.
श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.0 | 2/21 | 728ms |
| #159 | Ling-2.6-1T none | Inclusionai | 1 | 4.3 | 3/21 | 7.72s |
| #154 | Qwen3.5-9B none | Qwen | 1 | 4.6 | 4/21 | 1.89s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 4.4 | 4/21 | 35.1s |
| #145 | Laguna M.1 none | Poolside | 1 | 4.8 | 4/19 | 2.89s |
| #129 | MiniMax M2.5 medium | Minimax | 1 | 5.3 | 5/21 | 65.4s |
| #130 | MiniMax M2.7 medium | Minimax | 1 | 5.3 | 5/21 | 38.2s |
| #137 | Elephant Alpha none | Openrouter | 1 | 5.1 | 5/21 | 1.22s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 5.0 | 5/21 | 26.8s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 4.8 | 5/19 | 806ms |
| #122 | GLM 4.7 Flash none | Z.ai | 1 | 5.5 | 6/21 | 2.86s |
| #133 | DeepSeek V3.2 none | DeepSeek | 1 | 5.2 | 6/21 | 13.8s |
| #136 | Elephant Alpha medium | Openrouter | 1 | 5.1 | 6/21 | 1.27s |
| #138 | Ling-2.6-flash none | Inclusionai | 2 | 5.0 | 6/21 | 9.34s |
| #107 | Laguna Xs.2 medium | Poolside | 1 | 5.8 | 6/19 | 6.73s |