AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #61 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 6.2 | 1/1 | 3.94s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 10.0 | 7.4 | 1/1 | 4.11s |
| #3 | Claude Opus 4.7 medium | Anthropic | 10.0 | 9.2 | 1/1 | 4.17s |
| #97 | Qwen3.5-9B medium | Qwen | 10.0 | 4.4 | 1/1 | 4.31s |
| #65 | MiMo-V2-Pro none | Xiaomi | 10.0 | 6.0 | 1/1 | 4.39s |
| #69 | Kimi K2.6 none | Moonshot AI | 10.0 | 5.8 | 1/1 | 4.46s |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 10.0 | 8.1 | 1/1 | 4.60s |
| #82 | Grok 4.20 none | X AI | 10.0 | 5.2 | 1/1 | 4.63s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 10.0 | 7.4 | 1/1 | 4.65s |
| #28 | GPT-5.2 Chat none | OpenAI | 10.0 | 7.9 | 1/1 | 4.68s |
| #4 | Claude Opus 4.7 none | Anthropic | 10.0 | 9.2 | 1/1 | 4.74s |
| #79 | Grok 4.20 Beta none | X AI | 10.0 | 5.3 | 1/1 | 4.79s |
| #58 | GLM 5V Turbo none | Z.ai | 10.0 | 6.2 | 1/1 | 4.86s |
| #5 | Gemini 3 Flash Preview low | 10.0 | 8.8 | 1/1 | 4.99s | |
| #95 | Grok 4.1 Fast none | X AI | 2.8 | 4.5 | 0/1 | 5.51s |