AI BENCHY श्रेणी
टूल कॉलिंग रैंकिंग
देखें कि टूल कॉलिंग में कौन से AI मॉडल सबसे अच्छा प्रदर्शन करते हैं, कौन से भरोसेमंद बने रहते हैं और सबसे बड़े अंतर कहाँ दिखाई देते हैं। क्रमबद्ध करें: प्रतिक्रिया समय (औसत) ↑.
| रैंक | मॉडल | कंपनी | टूल कॉलिंग स्कोर | स्कोर | सही परीक्षण | प्रतिक्रिया समय (औसत) |
|---|---|---|---|---|---|---|
| #87 | Qwen3 Coder Next none | Qwen | 10.0 | 5.1 | 1/1 | 2.47s |
| #89 | GPT-4o-mini none | OpenAI | 10.0 | 4.9 | 1/1 | 2.51s |
| #92 | Qwen3 Coder Next medium | Qwen | 10.0 | 4.7 | 1/1 | 2.64s |
| #66 | GPT-5.4 none | OpenAI | 10.0 | 5.9 | 1/1 | 2.75s |
| #55 | MiMo-V2-Omni none | Xiaomi | 10.0 | 6.5 | 1/1 | 2.76s |
| #85 | Elephant none | Openrouter | 3.0 | 5.2 | 0/1 | 2.79s |
| #81 | Elephant medium | Openrouter | 3.0 | 5.2 | 0/1 | 2.83s |
| #49 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.8 | 1/1 | 3.33s |
| #21 | Gemini 3 Flash Preview none | 10.0 | 8.1 | 1/1 | 3.35s | |
| #29 | Gemini 3.1 Flash Lite Preview none | 10.0 | 7.9 | 1/1 | 3.39s | |
| #96 | GPT-5.4 Nano none | OpenAI | 10.0 | 4.5 | 1/1 | 3.40s |
| #73 | Mistral Small 4 medium | Mistral | 10.0 | 5.7 | 1/1 | 3.50s |
| #67 | Qwen3.5-27B none | Qwen | 10.0 | 5.9 | 1/1 | 3.54s |
| #59 | Qwen3.5-Flash none | Qwen | 10.0 | 6.2 | 1/1 | 3.67s |
| #17 | Gemini 3.1 Flash Lite Preview medium | 10.0 | 8.2 | 1/1 | 3.80s |