AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #132 | Mistral Small 4 medium | Mistral | 10.0 | 5.3 | 1/1 | 3.50s |
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 1/1 | 3.51s | |
| #88 | Qwen3.7 Plus none | Qwen | 10.0 | 6.4 | 1/1 | 3.54s |
| #115 | Qwen3.5-27B none | Qwen | 10.0 | 5.7 | 1/1 | 3.54s |
| #108 | Qwen3.5-Flash none | Qwen | 10.0 | 5.8 | 1/1 | 3.67s |
| #40 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 7.5 | 1/1 | 3.80s | |
| #7 | Gemini 3.5 Flash medium | 10.0 | 9.0 | 1/1 | 3.81s | |
| #91 | GPT-5.5 none | OpenAI | 10.0 | 6.4 | 1/1 | 3.90s |
| #34 | Qwen3.7 Max none | Qwen | 10.0 | 7.7 | 1/1 | 3.92s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 5.8 | 1/1 | 3.94s |
| #39 | Qwen3.6 Flash medium | Qwen | 10.0 | 7.5 | 1/1 | 4.00s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 10.0 | 6.8 | 1/1 | 4.11s |
| #22 | Step 3.7 Flash medium | Stepfun | 10.0 | 8.0 | 1/1 | 4.16s |
| #11 | Claude Opus 4.7 medium | Anthropic | 10.0 | 8.7 | 1/1 | 4.17s |
| #161 | Qwen3.5-9B medium | Qwen | 10.0 | 4.2 | 1/1 | 4.31s |