Categoría AI BENCHY
Ranking de Llamada de herramientas
Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.
Modelos mostrados
15
Promedio de Puntuación de Llamada de herramientas
8.7
Mejor modelo
Grok 4.20 Beta 3.0| Rango | Modelo | Empresa | Puntuación de Llamada de herramientas | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #13 | Grok 4.20 Beta medium | X AI | 3.0 | 8.5 | 0/1 | 12.4s |
| #20 | Gemini 3.5 Flash none | 3.0 | 8.1 | 0/1 | 0ms | |
| #27 | Gemma 4 31B medium | 3.0 | 7.8 | 0/1 | 0ms | |
| #42 | GPT-5.2 medium | OpenAI | 4.7 | 7.5 | 0/1 | 10.3s |
| #45 | GPT-5.4 Mini medium | OpenAI | 4.7 | 7.5 | 0/1 | 9.62s |
| #46 | Qwen3.6 35B A3B medium | Qwen | 3.0 | 7.4 | 0/1 | 0ms |
| #55 | GLM 5.1 medium | Z.ai | 3.0 | 7.3 | 0/1 | 0ms |
| #59 | GLM 5V Turbo medium | Z.ai | 7.0 | 7.2 | 0/1 | 12.5s |
| #65 | Grok 4.20 medium | X AI | 3.0 | 7.1 | 0/1 | 13.7s |
| #83 | Step 3.5 Flash none | Stepfun | 3.0 | 6.6 | 0/1 | 0ms |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 3.0 | 6.6 | 0/1 | 0ms |
| #85 | Gemma 4 31B none | 3.0 | 6.5 | 0/1 | 0ms | |
| #86 | Grok 4.1 Fast medium | X AI | 2.8 | 6.5 | 0/1 | 27.7s |
| #89 | Hy3 preview low | Tencent | 2.8 | 6.4 | 0/1 | 17.8s |
| #96 | Ring-2.6-1T none | Inclusionai | 3.0 | 6.2 | 0/1 | 0ms |