AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #143 | MiMo-V2.5 none | Xiaomi | 10.0 | 4.9 | 1/1 | 2.43s |
| #145 | Laguna M.1 none | Poolside | 10.0 | 4.8 | 1/1 | 7.54s |
| #147 | GPT-4o-mini none | OpenAI | 10.0 | 4.8 | 1/1 | 2.51s |
| #148 | GPT-5.4 Nano none | OpenAI | 10.0 | 4.7 | 1/1 | 3.40s |
| #150 | Qwen3 Coder Next medium | Qwen | 10.0 | 4.6 | 1/1 | 2.64s |
| #151 | Trinity Large Preview none | Arcee AI | 10.0 | 4.6 | 1/1 | 6.67s |
| #152 | MiMo-V2-Flash none | Xiaomi | 10.0 | 4.6 | 1/1 | 2.28s |
| #154 | Qwen3.5-9B none | Qwen | 10.0 | 4.6 | 1/1 | 1.27s |
| #155 | Mercury 2 none | Inception | 10.0 | 4.5 | 1/1 | 1.27s |
| #156 | Hy3 preview none | Tencent | 10.0 | 4.4 | 1/1 | 33.8s |
| #158 | GLM 4.7 Flash medium | Z.ai | 10.0 | 4.4 | 1/1 | 15.9s |
| #161 | Qwen3.5-9B medium | Qwen | 10.0 | 4.2 | 1/1 | 4.31s |
| #163 | Granite 4.1 8B none | IBM Granite | 10.0 | 4.0 | 1/1 | 2.17s |