AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Categoría AI BENCHY

Ranking de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

13

Promedio de Puntuación de Llamada de herramientas

8.7

Mejor modelo

Grok 4.1 Fast 2.8
Rango Modelo Empresa Puntuación de Llamada de herramientas Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#143 MiMo-V2.5 none Xiaomi 10.0 4.9 1/1 2.43s
#145 Laguna M.1 none Poolside 10.0 4.8 1/1 7.54s
#147 GPT-4o-mini none OpenAI 10.0 4.8 1/1 2.51s
#148 GPT-5.4 Nano none OpenAI 10.0 4.7 1/1 3.40s
#150 Qwen3 Coder Next medium Qwen 10.0 4.6 1/1 2.64s
#151 Trinity Large Preview none Arcee AI 10.0 4.6 1/1 6.67s
#152 MiMo-V2-Flash none Xiaomi 10.0 4.6 1/1 2.28s
#154 Qwen3.5-9B none Qwen 10.0 4.6 1/1 1.27s
#155 Mercury 2 none Inception 10.0 4.5 1/1 1.27s
#156 Hy3 preview none Tencent 10.0 4.4 1/1 33.8s
#158 GLM 4.7 Flash medium Z.ai 10.0 4.4 1/1 15.9s
#161 Qwen3.5-9B medium Qwen 10.0 4.2 1/1 4.31s
#163 Granite 4.1 8B none IBM Granite 10.0 4.0 1/1 2.17s

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)