AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #11 | Gemini 3.1 Flash Lite Preview high | 10.0 | 8.4 | 1/1 | 7.73s | |
| #12 | Gemini 3 PRO Preview medium | 10.0 | 8.4 | 1/1 | 12.0s | |
| #13 | GLM 5 medium | Z.ai | 10.0 | 8.4 | 1/1 | 15.9s |
| #15 | Gemini 2.5 Flash medium | 10.0 | 8.2 | 1/1 | 6.20s | |
| #16 | GPT-5.4 medium | OpenAI | 10.0 | 8.2 | 1/1 | 13.3s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 8.2 | 1/1 | 3.80s | |
| #18 | GLM 5 Turbo medium | Z.ai | 10.0 | 8.1 | 1/1 | 9.84s |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 10.0 | 8.1 | 1/1 | 4.60s |
| #20 | Qwen3.6 Plus medium | Qwen | 10.0 | 8.1 | 1/1 | 5.87s |
| #21 | Gemini 3 Flash Preview none | 10.0 | 8.1 | 1/1 | 3.35s | |
| #22 | Gemini 3.1 Flash Lite Preview low | 10.0 | 8.1 | 1/1 | 9.54s | |
| #23 | MiMo-V2-Pro medium | Xiaomi | 10.0 | 8.1 | 1/1 | 8.19s |
| #24 | Gemma 4 26B A4B medium | 10.0 | 8.0 | 1/1 | 9.01s | |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 10.0 | 8.0 | 1/1 | 7.48s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 10.0 | 8.0 | 1/1 | 34.8s |