AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #13 | Grok 4.20 Beta medium | X AI | 3.0 | 8.5 | 0/1 | 12.4s |
| #20 | Gemini 3.5 Flash none | 3.0 | 8.1 | 0/1 | 0ms | |
| #27 | Gemma 4 31B medium | 3.0 | 7.8 | 0/1 | 0ms | |
| #42 | GPT-5.2 medium | OpenAI | 4.7 | 7.5 | 0/1 | 10.3s |
| #45 | GPT-5.4 Mini medium | OpenAI | 4.7 | 7.5 | 0/1 | 9.62s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 3.0 | 7.4 | 0/1 | 0ms |
| #55 | GLM 5.1 medium | Z.ai | 3.0 | 7.3 | 0/1 | 0ms |
| #59 | GLM 5V Turbo medium | Z.ai | 7.0 | 7.2 | 0/1 | 12.5s |
| #65 | Grok 4.20 medium | X AI | 3.0 | 7.1 | 0/1 | 13.7s |
| #83 | Step 3.5 Flash none | Stepfun | 3.0 | 6.6 | 0/1 | 0ms |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 3.0 | 6.6 | 0/1 | 0ms |
| #85 | Gemma 4 31B none | 3.0 | 6.5 | 0/1 | 0ms | |
| #86 | Grok 4.1 Fast medium | X AI | 2.8 | 6.5 | 0/1 | 27.7s |
| #89 | Hy3 preview low | Tencent | 2.8 | 6.4 | 0/1 | 17.8s |
| #96 | Ring-2.6-1T none | Inclusionai | 3.0 | 6.2 | 0/1 | 0ms |