AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #74 | GLM 4.7 Flash none | Z.ai | 2.8 | 5.6 | 0/1 | 7.05s |
| #68 | gpt-oss-120b medium | OpenAI | 9.8 | 5.8 | 1/1 | 6.91s |
| #78 | Trinity Large Preview none | Arcee AI | 10.0 | 5.3 | 1/1 | 6.67s |
| #7 | GPT-5.3-Codex medium | OpenAI | 10.0 | 8.6 | 1/1 | 6.37s |
| #15 | Gemini 2.5 Flash medium | 10.0 | 8.2 | 1/1 | 6.20s | |
| #72 | Hunter Alpha none | OpenRouter | 10.0 | 5.7 | 1/1 | 6.02s |
| #9 | Qwen3.6 Plus Preview medium | Qwen | 10.0 | 8.5 | 1/1 | 5.87s |
| #20 | Qwen3.6 Plus medium | Qwen | 10.0 | 8.1 | 1/1 | 5.87s |
| #95 | Grok 4.1 Fast none | X AI | 2.8 | 4.5 | 0/1 | 5.51s |
| #5 | Gemini 3 Flash Preview low | 10.0 | 8.8 | 1/1 | 4.99s | |
| #58 | GLM 5V Turbo none | Z.ai | 10.0 | 6.2 | 1/1 | 4.86s |
| #79 | Grok 4.20 Beta none | X AI | 10.0 | 5.3 | 1/1 | 4.79s |
| #4 | Claude Opus 4.7 none | Anthropic | 10.0 | 9.2 | 1/1 | 4.74s |
| #28 | GPT-5.2 Chat none | OpenAI | 10.0 | 7.9 | 1/1 | 4.68s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 10.0 | 7.4 | 1/1 | 4.65s |