AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #121 | Owl Alpha none | Openrouter | 10.0 | 5.5 | 1/1 | 22.8s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 10.0 | 5.5 | 1/1 | 3.30s |
| #124 | Kimi K2.6 none | Moonshot AI | 10.0 | 5.5 | 1/1 | 4.46s |
| #125 | GPT-5.4 none | OpenAI | 10.0 | 5.5 | 1/1 | 2.75s |
| #127 | Grok 4.20 none | X AI | 10.0 | 5.4 | 1/1 | 4.63s |
| #128 | Qwen3.6 Flash none | Qwen | 10.0 | 5.4 | 1/1 | 2.49s |
| #129 | MiniMax M2.5 medium | Minimax | 10.0 | 5.3 | 1/1 | 15.4s |
| #131 | Qwen3.5-122B-A10B none | Qwen | 10.0 | 5.3 | 1/1 | 2.04s |
| #132 | Mistral Small 4 medium | Mistral | 10.0 | 5.3 | 1/1 | 3.50s |
| #133 | DeepSeek V3.2 none | DeepSeek | 10.0 | 5.2 | 1/1 | 11.8s |
| #134 | GLM 5 Turbo none | Z.ai | 10.0 | 5.2 | 1/1 | 8.21s |
| #135 | Kimi K2.5 none | Moonshot AI | 10.0 | 5.2 | 1/1 | 14.0s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 10.0 | 5.0 | 1/1 | 77.9s |
| #140 | Qwen3 Coder Next none | Qwen | 10.0 | 4.9 | 1/1 | 2.47s |
| #142 | Mistral Small 4 none | Mistral | 10.0 | 4.9 | 1/1 | 1.40s |