AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #100 | Grok Build 0.1 none | X AI | 3.0 | 6.0 | 0/1 | 0ms |
| #107 | Laguna Xs.2 medium | Poolside | 4.7 | 5.8 | 0/1 | 3.39s |
| #122 | GLM 4.7 Flash none | Z.ai | 2.8 | 5.5 | 0/1 | 7.05s |
| #126 | gpt-oss-120b none | OpenAI | 3.0 | 5.4 | 0/1 | 0ms |
| #130 | MiniMax M2.7 medium | Minimax | 4.7 | 5.3 | 0/1 | 12.0s |
| #136 | Elephant Alpha medium | Openrouter | 3.0 | 5.1 | 0/1 | 2.83s |
| #137 | Elephant Alpha none | Openrouter | 3.0 | 5.1 | 0/1 | 2.79s |
| #138 | Ling-2.6-flash none | Inclusionai | 3.0 | 5.0 | 0/1 | 18.8s |
| #141 | Nemotron 3 Super none | NVIDIA | 4.7 | 4.9 | 0/1 | 16.0s |
| #144 | GPT-5.4 Mini none | OpenAI | 3.0 | 4.9 | 0/1 | 2.32s |
| #146 | Laguna Xs.2 none | Poolside | 3.0 | 4.8 | 0/1 | 1.93s |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 3.0 | 4.6 | 0/1 | 0ms |
| #153 | Qwen3.6 35B A3B none | Qwen | 3.0 | 4.6 | 0/1 | 0ms |
| #157 | Grok 4.1 Fast none | X AI | 2.8 | 4.4 | 0/1 | 5.51s |
| #159 | Ling-2.6-1T none | Inclusionai | 3.0 | 4.3 | 0/1 | 25.7s |