AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 10.0 | 6.0 | 1/1 | 2.99s |
| #105 | Nemotron 3 Super medium | NVIDIA | 10.0 | 5.8 | 1/1 | 39.7s |
| #106 | Grok 4.20 Beta none | X AI | 10.0 | 5.8 | 1/1 | 4.79s |
| #108 | Qwen3.5-Flash none | Qwen | 10.0 | 5.8 | 1/1 | 3.67s |
| #109 | GLM 5V Turbo none | Z.ai | 10.0 | 5.8 | 1/1 | 4.86s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 5.8 | 1/1 | 3.94s |
| #111 | Owl Alpha medium | Openrouter | 10.0 | 5.7 | 1/1 | 8.26s |
| #112 | GLM 5.1 none | Z.ai | 10.0 | 5.7 | 1/1 | 10.7s |
| #113 | DeepSeek V4 Pro none | DeepSeek | 10.0 | 5.7 | 1/1 | 5.92s |
| #114 | Qwen3.5 Plus 2026-04-20 none | Qwen | 10.0 | 5.7 | 1/1 | 4.42s |
| #115 | Qwen3.5-27B none | Qwen | 10.0 | 5.7 | 1/1 | 3.54s |
| #116 | Hunter Alpha none | OpenRouter | 10.0 | 5.7 | 1/1 | 6.02s |
| #117 | Qwen3.5-35B-A3B none | Qwen | 10.0 | 5.6 | 1/1 | 2.30s |
| #119 | Cobuddy medium | Baidu | 10.0 | 5.6 | 1/1 | 11.2s |
| #120 | Mimo V2 PRO none | Xiaomi | 10.0 | 5.6 | 1/1 | 4.39s |