AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↓.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #22 | Step 3.7 Flash medium | Stepfun | 10.0 | 8.0 | 1/1 | 4.16s |
| #77 | Claude Sonnet 4.6 none | Anthropic | 10.0 | 6.8 | 1/1 | 4.11s |
| #39 | Qwen3.6 Flash medium | Qwen | 10.0 | 7.5 | 1/1 | 4.00s |
| #110 | Seed-2.0-Lite none | Bytedance Seed | 10.0 | 5.8 | 1/1 | 3.94s |
| #34 | Qwen3.7 Max none | Qwen | 10.0 | 7.7 | 1/1 | 3.92s |
| #91 | GPT-5.5 none | OpenAI | 10.0 | 6.4 | 1/1 | 3.90s |
| #7 | Gemini 3.5 Flash medium | 10.0 | 9.0 | 1/1 | 3.81s | |
| #40 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 7.5 | 1/1 | 3.80s | |
| #108 | Qwen3.5-Flash none | Qwen | 10.0 | 5.8 | 1/1 | 3.67s |
| #88 | Qwen3.7 Plus none | Qwen | 10.0 | 6.4 | 1/1 | 3.54s |
| #115 | Qwen3.5-27B none | Qwen | 10.0 | 5.7 | 1/1 | 3.54s |
| #87 | Gemini 3.1 Flash Lite minimal | 10.0 | 6.4 | 1/1 | 3.51s | |
| #132 | Mistral Small 4 medium | Mistral | 10.0 | 5.3 | 1/1 | 3.50s |
| #148 | GPT-5.4 Nano none | OpenAI | 10.0 | 4.7 | 1/1 | 3.40s |
| #107 | Laguna Xs.2 medium | Poolside | 4.7 | 5.8 | 0/1 | 3.39s |