AI BENCHY
Your ad here

Categoría AI BENCHY

Ranking de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

15

Promedio de Puntuación de Llamada de herramientas

8.7

Mejor modelo

Gemma 4 31B 3.0
Rango Modelo Empresa Puntuación de Llamada de herramientas Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#50 Hunter Alpha medium OpenRouter 10.0 6.7 1/1 17.3s
#51 Nemotron 3 Super medium NVIDIA 10.0 6.7 1/1 39.7s
#53 GLM 5 none Z.ai 10.0 6.6 1/1 11.1s
#54 Mercury 2 medium Inception 10.0 6.5 1/1 1.89s
#55 MiMo-V2-Omni none Xiaomi 10.0 6.5 1/1 2.76s
#57 GPT-5 Nano medium OpenAI 10.0 6.3 1/1 33.3s
#58 GLM 5V Turbo none Z.ai 10.0 6.2 1/1 4.86s
#59 Qwen3.5-Flash none Qwen 10.0 6.2 1/1 3.67s
#60 Gemma 4 26B A4B none Google 10.0 6.2 1/1 57.1s
#61 Seed-2.0-Lite none Bytedance Seed 10.0 6.2 1/1 3.94s
#62 Gemini 2.5 Flash none Google 10.0 6.2 1/1 1.91s
#63 Qwen3.5-35B-A3B none Qwen 10.0 6.1 1/1 2.30s
#64 DeepSeek V3.2 none DeepSeek 10.0 6.1 1/1 11.8s
#65 MiMo-V2-Pro none Xiaomi 10.0 6.0 1/1 4.39s
#66 GPT-5.4 none OpenAI 10.0 5.9 1/1 2.75s

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)