AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #58 | Gemini 3.1 Flash Lite Preview none | 10.0 | 7.2 | 1/1 | 3.39s | |
| #48 | Gemini 3 Flash Preview none | 10.0 | 7.4 | 1/1 | 3.35s | |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.3 | 1/1 | 3.33s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 10.0 | 5.5 | 1/1 | 3.30s |
| #3 | Gemini 3.5 Flash low | 10.0 | 9.4 | 1/1 | 3.27s | |
| #57 | Step 3.7 Flash low | Stepfun | 10.0 | 7.3 | 1/1 | 3.25s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 10.0 | 6.0 | 1/1 | 2.99s |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 1/1 | 2.97s | |
| #136 | Elephant Alpha medium | Openrouter | 3.0 | 5.1 | 0/1 | 2.83s |
| #71 | Step 3.7 Flash high | Stepfun | 10.0 | 7.0 | 1/1 | 2.79s |
| #32 | Gemini 3.5 Flash minimal | 10.0 | 7.7 | 1/1 | 2.79s | |
| #137 | Elephant Alpha none | Openrouter | 3.0 | 5.1 | 0/1 | 2.79s |
| #125 | GPT-5.4 none | OpenAI | 10.0 | 5.5 | 1/1 | 2.75s |
| #150 | Qwen3 Coder Next medium | Qwen | 10.0 | 4.6 | 1/1 | 2.64s |
| #147 | GPT-4o-mini none | OpenAI | 10.0 | 4.8 | 1/1 | 2.51s |