Categoría AI BENCHY
Ranking de Llamada de herramientas
Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.
Modelos mostrados
15
Promedio de Puntuación de Llamada de herramientas
8.7
Mejor modelo
Gemini 3.5 Flash 3.0| Rango | Modelo | Empresa | Puntuación de Llamada de herramientas | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #20 | Gemini 3.5 Flash none | 3.0 | 8.1 | 0/1 | 0ms | |
| #27 | Gemma 4 31B medium | 3.0 | 7.8 | 0/1 | 0ms | |
| #46 | Qwen3.6 35B A3B medium | Qwen | 3.0 | 7.4 | 0/1 | 0ms |
| #55 | GLM 5.1 medium | Z.ai | 3.0 | 7.3 | 0/1 | 0ms |
| #83 | Step 3.5 Flash none | Stepfun | 3.0 | 6.6 | 0/1 | 0ms |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 3.0 | 6.6 | 0/1 | 0ms |
| #85 | Gemma 4 31B none | 3.0 | 6.5 | 0/1 | 0ms | |
| #96 | Ring-2.6-1T none | Inclusionai | 3.0 | 6.2 | 0/1 | 0ms |
| #100 | Grok Build 0.1 none | X AI | 3.0 | 6.0 | 0/1 | 0ms |
| #126 | gpt-oss-120b none | OpenAI | 3.0 | 5.4 | 0/1 | 0ms |
| #149 | Nemotron 3 Nano Omni 30b A3b Reasoning medium | NVIDIA | 3.0 | 4.6 | 0/1 | 0ms |
| #153 | Qwen3.6 35B A3B none | Qwen | 3.0 | 4.6 | 0/1 | 0ms |
| #160 | LFM2-24B-A2B none | Liquid | 3.0 | 4.2 | 0/1 | 0ms |
| #162 | Nemotron 3 Nano Omni 30b A3b Reasoning none | NVIDIA | 3.0 | 4.1 | 0/1 | 0ms |
| #155 | Mercury 2 none | Inception | 10.0 | 4.5 | 1/1 | 1.27s |