فئة AI BENCHY
ترتيب استدعاء الأدوات
اكتشف أي نماذج الذكاء الاصطناعي تؤدي أفضل في استدعاء الأدوات، وأيها يظل أكثر اعتمادية، وأين تظهر أكبر الفجوات. الترتيب حسب: زمن الاستجابة (المتوسط) ↓.
| الترتيب | النموذج | الشركة | درجة استدعاء الأدوات | النتيجة | اختبارات صحيحة | زمن الاستجابة (المتوسط) |
|---|---|---|---|---|---|---|
| #58 | Gemini 3.1 Flash Lite Preview none | 10.0 | 7.2 | 1/1 | 3.39s | |
| #48 | Gemini 3 Flash Preview none | 10.0 | 7.4 | 1/1 | 3.35s | |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 10.0 | 6.3 | 1/1 | 3.33s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 10.0 | 5.5 | 1/1 | 3.30s |
| #3 | Gemini 3.5 Flash low | 10.0 | 9.4 | 1/1 | 3.27s | |
| #57 | Step 3.7 Flash low | Stepfun | 10.0 | 7.3 | 1/1 | 3.25s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 10.0 | 6.0 | 1/1 | 2.99s |
| #90 | Gemini 3.1 Flash Lite none | 10.0 | 6.4 | 1/1 | 2.97s | |
| #136 | Elephant Alpha medium | Openrouter | 3.0 | 5.1 | 0/1 | 2.83s |
| #71 | Step 3.7 Flash high | Stepfun | 10.0 | 7.0 | 1/1 | 2.79s |
| #32 | Gemini 3.5 Flash minimal | 10.0 | 7.7 | 1/1 | 2.79s | |
| #137 | Elephant Alpha none | Openrouter | 3.0 | 5.1 | 0/1 | 2.79s |
| #125 | GPT-5.4 none | OpenAI | 10.0 | 5.5 | 1/1 | 2.75s |
| #150 | Qwen3 Coder Next medium | Qwen | 10.0 | 4.6 | 1/1 | 2.64s |
| #147 | GPT-4o-mini none | OpenAI | 10.0 | 4.8 | 1/1 | 2.51s |