AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Categoría AI BENCHY

Ranking de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

15

Promedio de Puntuación de Llamada de herramientas

8.7

Mejor modelo

Grok 4.1 Fast 2.8
Rango Modelo Empresa Puntuación de Llamada de herramientas Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#49 Qwen3.5 Plus 2026-02-15 none Qwen 10.0 6.8 1/1 3.33s
#50 Hunter Alpha medium OpenRouter 10.0 6.7 1/1 17.3s
#51 Nemotron 3 Super medium NVIDIA 10.0 6.7 1/1 39.7s
#53 GLM 5 none Z.ai 10.0 6.6 1/1 11.1s
#54 Mercury 2 medium Inception 10.0 6.5 1/1 1.89s
#55 MiMo-V2-Omni none Xiaomi 10.0 6.5 1/1 2.76s
#57 GPT-5 Nano medium OpenAI 10.0 6.3 1/1 33.3s
#58 GLM 5V Turbo none Z.ai 10.0 6.2 1/1 4.86s
#59 Qwen3.5-Flash none Qwen 10.0 6.2 1/1 3.67s
#60 Gemma 4 26B A4B none Google 10.0 6.2 1/1 57.1s
#61 Seed-2.0-Lite none Bytedance Seed 10.0 6.2 1/1 3.94s
#62 Gemini 2.5 Flash none Google 10.0 6.2 1/1 1.91s
#63 Qwen3.5-35B-A3B none Qwen 10.0 6.1 1/1 2.30s
#64 DeepSeek V3.2 none DeepSeek 10.0 6.1 1/1 11.8s
#65 MiMo-V2-Pro none Xiaomi 10.0 6.0 1/1 4.39s

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)