AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: सही परीक्षण ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #29 | Gemini 3.1 Flash Lite Preview none | 10.0 | 7.9 | 1/1 | 3.39s | |
| #30 | Step 3.5 Flash medium | Stepfun | 10.0 | 7.9 | 1/1 | 11.9s |
| #32 | Qwen3.5-Flash medium | Qwen | 10.0 | 7.8 | 1/1 | 10.3s |
| #34 | Kimi K2.6 medium | Moonshot AI | 10.0 | 7.7 | 1/1 | 8.92s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 10.0 | 7.7 | 1/1 | 11.1s |
| #36 | GPT-5.3 Chat none | OpenAI | 10.0 | 7.7 | 1/1 | 8.36s |
| #37 | Claude Opus 4.6 medium | Anthropic | 10.0 | 7.6 | 1/1 | 9.73s |
| #38 | GPT-5.4 Nano medium | OpenAI | 10.0 | 7.6 | 1/1 | 7.71s |
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 10.0 | 7.5 | 1/1 | 88.7s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 10.0 | 7.5 | 1/1 | 27.8s |
| #42 | Claude Sonnet 4.6 none | Anthropic | 10.0 | 7.4 | 1/1 | 4.11s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 10.0 | 7.4 | 1/1 | 4.65s |
| #45 | GPT-5 Mini medium | OpenAI | 10.0 | 7.0 | 1/1 | 18.6s |
| #46 | Kimi K2.5 medium | Moonshot AI | 10.0 | 7.0 | 1/1 | 31.7s |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.8 | 1/1 | 3.33s |