AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: मेट्रिक ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #81 | Mercury 2 medium | Inception | 10.0 | 6.6 | 1/1 | 1.89s |
| #82 | Hy3 preview high | Tencent | 10.0 | 6.6 | 1/1 | 78.8s |
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 1/1 | 3.51s | |
| #88 | Qwen3.7 Plus none | Qwen | 10.0 | 6.4 | 1/1 | 3.54s |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 1/1 | 2.97s | |
| #91 | GPT-5.5 none | OpenAI | 10.0 | 6.4 | 1/1 | 3.90s |
| #92 | Laguna M.1 medium | Poolside | 10.0 | 6.4 | 1/1 | 6.31s |
| #93 | Qwen3.6 Plus Preview medium | Qwen | 10.0 | 6.3 | 1/1 | 5.87s |
| #94 | GPT-5 Nano medium | OpenAI | 10.0 | 6.3 | 1/1 | 33.3s |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.3 | 1/1 | 3.33s |
| #97 | Gemini 2.5 Flash none | 10.0 | 6.2 | 1/1 | 1.91s | |
| #98 | GLM 5 none | Z.ai | 10.0 | 6.1 | 1/1 | 11.1s |
| #101 | Mimo V2 Omni none | Xiaomi | 10.0 | 6.0 | 1/1 | 5.40s |
| #102 | Gemma 4 26B A4B none | 10.0 | 6.0 | 1/1 | 57.1s | |
| #103 | DeepSeek V4 Pro high | DeepSeek | 10.0 | 6.0 | 1/1 | 21.3s |