AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #128 | Qwen3.6 Flash none | Qwen | 10.0 | 5.4 | 1/1 | 2.49s |
| #129 | MiniMax M2.5 medium | Minimax | 10.0 | 5.3 | 1/1 | 15.4s |
| #131 | Qwen3.5-122B-A10B none | Qwen | 10.0 | 5.3 | 1/1 | 2.04s |
| #132 | Mistral Small 4 medium | Mistral | 10.0 | 5.3 | 1/1 | 3.50s |
| #133 | DeepSeek V3.2 none | DeepSeek | 10.0 | 5.2 | 1/1 | 11.8s |
| #134 | GLM 5 Turbo none | Z.ai | 10.0 | 5.2 | 1/1 | 8.21s |
| #135 | Kimi K2.5 none | Moonshot AI | 10.0 | 5.2 | 1/1 | 14.0s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 10.0 | 5.0 | 1/1 | 77.9s |
| #140 | Qwen3 Coder Next none | Qwen | 10.0 | 4.9 | 1/1 | 2.47s |
| #142 | Mistral Small 4 none | Mistral | 10.0 | 4.9 | 1/1 | 1.40s |
| #143 | MiMo-V2.5 none | Xiaomi | 10.0 | 4.9 | 1/1 | 2.43s |
| #145 | Laguna M.1 none | Poolside | 10.0 | 4.8 | 1/1 | 7.54s |
| #147 | GPT-4o-mini none | OpenAI | 10.0 | 4.8 | 1/1 | 2.51s |
| #148 | GPT-5.4 Nano none | OpenAI | 10.0 | 4.7 | 1/1 | 3.40s |
| #150 | Qwen3 Coder Next medium | Qwen | 10.0 | 4.6 | 1/1 | 2.64s |