AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↓.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #45 | GPT-5.4 Mini medium | OpenAI | 4.7 | 7.5 | 0/1 | 9.62s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 3.0 | 7.4 | 0/1 | 0ms |
| #55 | GLM 5.1 medium | Z.ai | 3.0 | 7.3 | 0/1 | 0ms |
| #59 | GLM 5V Turbo medium | Z.ai | 7.0 | 7.2 | 0/1 | 12.5s |
| #65 | Grok 4.20 medium | X AI | 3.0 | 7.1 | 0/1 | 13.7s |
| #83 | Step 3.5 Flash none | Stepfun | 3.0 | 6.6 | 0/1 | 0ms |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 3.0 | 6.6 | 0/1 | 0ms |
| #85 | Gemma 4 31B none | 3.0 | 6.5 | 0/1 | 0ms | |
| #86 | Grok 4.1 Fast medium | X AI | 2.8 | 6.5 | 0/1 | 27.7s |
| #89 | Hy3 preview low | Tencent | 2.8 | 6.4 | 0/1 | 17.8s |
| #96 | Ring-2.6-1T none | Inclusionai | 3.0 | 6.2 | 0/1 | 0ms |
| #100 | Grok Build 0.1 none | X AI | 3.0 | 6.0 | 0/1 | 0ms |
| #107 | Laguna Xs.2 medium | Poolside | 4.7 | 5.8 | 0/1 | 3.39s |
| #122 | GLM 4.7 Flash none | Z.ai | 2.8 | 5.5 | 0/1 | 7.05s |
| #126 | gpt-oss-120b none | OpenAI | 3.0 | 5.4 | 0/1 | 0ms |