AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 10.0 | 7.5 | 1/1 | 88.7s |
| #60 | Gemma 4 26B A4B none | 10.0 | 6.2 | 1/1 | 57.1s | |
| #51 | Nemotron 3 Super medium | NVIDIA | 10.0 | 6.7 | 1/1 | 39.7s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 10.0 | 8.0 | 1/1 | 34.8s |
| #57 | GPT-5 Nano medium | OpenAI | 10.0 | 6.3 | 1/1 | 33.3s |
| #46 | Kimi K2.5 medium | Moonshot AI | 10.0 | 7.0 | 1/1 | 31.7s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 10.0 | 7.5 | 1/1 | 27.8s |
| #52 | Grok 4.1 Fast medium | X AI | 2.8 | 6.7 | 0/1 | 27.7s |
| #2 | Gemini 3.1 Pro Preview medium | 10.0 | 9.6 | 1/1 | 23.1s | |
| #45 | GPT-5 Mini medium | OpenAI | 10.0 | 7.0 | 1/1 | 18.6s |
| #50 | Hunter Alpha medium | OpenRouter | 10.0 | 6.7 | 1/1 | 17.3s |
| #88 | Nemotron 3 Super none | NVIDIA | 4.7 | 5.1 | 0/1 | 16.0s |
| #93 | GLM 4.7 Flash medium | Z.ai | 10.0 | 4.6 | 1/1 | 15.9s |
| #13 | GLM 5 medium | Z.ai | 10.0 | 8.4 | 1/1 | 15.9s |
| #71 | MiniMax M2.5 medium | Minimax | 10.0 | 5.7 | 1/1 | 15.4s |