AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #110 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 5.8 | 1/1 | 3.94s |
| #111 | Owl Alpha medium | Openrouter | 10.0 | 5.7 | 1/1 | 8.26s |
| #112 | GLM 5.1 none | Z.ai | 10.0 | 5.7 | 1/1 | 10.7s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 10.0 | 5.7 | 1/1 | 5.92s |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 10.0 | 5.7 | 1/1 | 4.42s |
| #115 | Qwen3.5-27B none | Qwen | 10.0 | 5.7 | 1/1 | 3.54s |
| #116 | Hunter Alpha none | OpenRouter | 10.0 | 5.7 | 1/1 | 6.02s |
| #117 | Qwen3.5-35B-A3B none | Qwen | 10.0 | 5.6 | 1/1 | 2.30s |
| #119 | Cobuddy medium | Baidu | 10.0 | 5.6 | 1/1 | 11.2s |
| #120 | Mimo V2 PRO none | Xiaomi | 10.0 | 5.6 | 1/1 | 4.39s |
| #121 | Owl Alpha none | Openrouter | 10.0 | 5.5 | 1/1 | 22.8s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 10.0 | 5.5 | 1/1 | 3.30s |
| #124 | Kimi K2.6 none | Moonshot AI | 10.0 | 5.5 | 1/1 | 4.46s |
| #125 | GPT-5.4 none | OpenAI | 10.0 | 5.5 | 1/1 | 2.75s |
| #127 | Grok 4.20 none | X AI | 10.0 | 5.4 | 1/1 | 4.63s |