AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #154 | Qwen3.5-9B none | Qwen | 10.0 | 4.6 | 1/1 | 1.27s |
| #142 | Mistral Small 4 none | Mistral | 10.0 | 4.9 | 1/1 | 1.40s |
| #81 | Mercury 2 medium | Inception | 10.0 | 6.6 | 1/1 | 1.89s |
| #97 | Gemini 2.5 Flash none | 10.0 | 6.2 | 1/1 | 1.91s | |
| #146 | Laguna Xs.2 none | Poolside | 3.0 | 4.8 | 0/1 | 1.93s |
| #131 | Qwen3.5-122B-A10B none | Qwen | 10.0 | 5.3 | 1/1 | 2.04s |
| #163 | Granite 4.1 8B none | IBM Granite | 10.0 | 4.0 | 1/1 | 2.17s |
| #152 | MiMo-V2-Flash none | Xiaomi | 10.0 | 4.6 | 1/1 | 2.28s |
| #117 | Qwen3.5-35B-A3B none | Qwen | 10.0 | 5.6 | 1/1 | 2.30s |
| #144 | GPT-5.4 Mini none | OpenAI | 3.0 | 4.9 | 0/1 | 2.32s |
| #143 | MiMo-V2.5 none | Xiaomi | 10.0 | 4.9 | 1/1 | 2.43s |
| #140 | Qwen3 Coder Next none | Qwen | 10.0 | 4.9 | 1/1 | 2.47s |
| #128 | Qwen3.6 Flash none | Qwen | 10.0 | 5.4 | 1/1 | 2.49s |
| #147 | GPT-4o-mini none | OpenAI | 10.0 | 4.8 | 1/1 | 2.51s |
| #150 | Qwen3 Coder Next medium | Qwen | 10.0 | 4.6 | 1/1 | 2.64s |