AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं।
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #137 | Elephant Alpha none | Openrouter | 3.0 | 5.1 | 0/1 | 2.79s |
| #138 | Ling-2.6-flash none | Inclusionai | 3.0 | 5.0 | 0/1 | 18.8s |
| #144 | GPT-5.4 Mini none | OpenAI | 3.0 | 4.9 | 0/1 | 2.32s |
| #146 | Laguna Xs.2 none | Poolside | 3.0 | 4.8 | 0/1 | 1.93s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 3.0 | 4.6 | 0/1 | 0ms |
| #153 | Qwen3.6 35B A3B none | Qwen | 3.0 | 4.6 | 0/1 | 0ms |
| #159 | Ling-2.6-1T none | Inclusionai | 3.0 | 4.3 | 0/1 | 25.7s |
| #160 | LFM2-24B-A2B none | Liquid | 3.0 | 4.2 | 0/1 | 0ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 3.0 | 4.1 | 0/1 | 0ms |
| #86 | Grok 4.1 Fast medium | X AI | 2.8 | 6.5 | 0/1 | 27.7s |
| #89 | Hy3 preview low | Tencent | 2.8 | 6.4 | 0/1 | 17.8s |
| #122 | GLM 4.7 Flash none | Z.ai | 2.8 | 5.5 | 0/1 | 7.05s |
| #157 | Grok 4.1 Fast none | X AI | 2.8 | 4.4 | 0/1 | 5.51s |