AI BENCHY विफलताएँ
अमान्य टूल कॉल विफलताएँ
देखें कि किन AI मॉडलों में अमान्य टूल कॉल सबसे अधिक होता है, ताकि आप चुनने से पहले भरोसेमंदी के जोखिम समझ सकें। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
श्रेणियाँ
| रैंक | मॉडल | कंपनी | अमान्य टूल कॉल संख्या | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #154 | Qwen3.5-9B none | Qwen | 1 | 4.6 | 4/21 | 1.89s |
| #128 | Qwen3.6 Flash none | Qwen | 1 | 5.4 | 7/21 | 1.60s |
| #32 | Gemini 3.5 Flash minimal | 1 | 7.7 | 14/21 | 1.57s | |
| #136 | Elephant Alpha medium | Openrouter | 1 | 5.1 | 6/21 | 1.27s |
| #137 | Elephant Alpha none | Openrouter | 1 | 5.1 | 5/21 | 1.22s |
| #106 | Grok 4.20 Beta none | X AI | 1 | 5.8 | 6/18 | 1.19s |
| #127 | Grok 4.20 none | X AI | 1 | 5.4 | 6/18 | 1.11s |
| #146 | Laguna Xs.2 none | Poolside | 1 | 4.8 | 5/19 | 806ms |
| #163 | Granite 4.1 8B none | IBM Granite | 1 | 4.0 | 2/21 | 728ms |