AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #10 | Claude Opus 4.8 medium | Anthropic | 10.0 | 8.7 | 1/1 | 8.96s |
| #37 | Gemma 4 26B A4B medium | 10.0 | 7.6 | 1/1 | 9.01s | |
| #50 | Gemini 3.1 Flash Lite Preview low | 10.0 | 7.4 | 1/1 | 9.54s | |
| #45 | GPT-5.4 Mini medium | OpenAI | 4.7 | 7.5 | 0/1 | 9.62s |
| #69 | Claude Opus 4.6 medium | Anthropic | 10.0 | 7.0 | 1/1 | 9.73s |
| #23 | GLM 5 Turbo medium | Z.ai | 10.0 | 8.0 | 1/1 | 9.84s |
| #42 | GPT-5.2 medium | OpenAI | 4.7 | 7.5 | 0/1 | 10.3s |
| #49 | Qwen3.5-Flash medium | Qwen | 10.0 | 7.4 | 1/1 | 10.3s |
| #9 | GPT-5.5 medium | OpenAI | 10.0 | 8.8 | 1/1 | 10.6s |
| #112 | GLM 5.1 none | Z.ai | 10.0 | 5.7 | 1/1 | 10.7s |
| #98 | GLM 5 none | Z.ai | 10.0 | 6.1 | 1/1 | 11.1s |
| #119 | Cobuddy medium | Baidu | 10.0 | 5.6 | 1/1 | 11.2s |
| #133 | DeepSeek V3.2 none | DeepSeek | 10.0 | 5.2 | 1/1 | 11.8s |
| #62 | Step 3.5 Flash medium | Stepfun | 10.0 | 7.2 | 1/1 | 11.9s |
| #67 | MiniMax M3 medium | Minimax | 10.0 | 7.1 | 1/1 | 11.9s |