Categoría AI BENCHY
Ranking de Llamada de herramientas
Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↓.
Modelos mostrados
8
Promedio de Puntuación de Llamada de herramientas
8.7
Mejor modelo
Seed-2.0-Mini 10.0| Rango | Modelo | Empresa | Puntuación de Llamada de herramientas | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #90 | Qwen3.5-9B none | Qwen | 10.0 | 4.8 | 1/1 | 1.27s |
| #91 | Mercury 2 none | Inception | 10.0 | 4.8 | 1/1 | 1.27s |
| #14 | Gemma 4 31B medium | 3.0 | 8.3 | 0/1 | 0ms | |
| #33 | GLM 5.1 medium | Z.ai | 3.0 | 7.8 | 0/1 | 0ms |
| #48 | Gemma 4 31B none | 3.0 | 6.9 | 0/1 | 0ms | |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 3.0 | 6.4 | 0/1 | 0ms |
| #84 | gpt-oss-120b none | OpenAI | 3.0 | 5.2 | 0/1 | 0ms |
| #98 | LFM2-24B-A2B none | Liquid | 3.0 | 4.1 | 0/1 | 0ms |