AI BENCHY
Your ad here

Categoría AI BENCHY

Ranking de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

15

Promedio de Puntuación de Llamada de herramientas

8.7

Mejor modelo

Gemma 4 31B 3.0
Rango Modelo Empresa Puntuación de Llamada de herramientas Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#86 GPT-5.4 Mini none OpenAI 3.0 5.1 0/1 2.32s
#88 Nemotron 3 Super none NVIDIA 4.7 5.1 0/1 16.0s
#95 Grok 4.1 Fast none X AI 2.8 4.5 0/1 5.51s
#98 LFM2-24B-A2B none Liquid 3.0 4.1 0/1 0ms
#1 Gemini 3 Flash Preview medium Google 10.0 10.0 1/1 10.6s
#2 Gemini 3.1 Pro Preview medium Google 10.0 9.6 1/1 23.1s
#3 Claude Opus 4.7 medium Anthropic 10.0 9.2 1/1 4.17s
#4 Claude Opus 4.7 none Anthropic 10.0 9.2 1/1 4.74s
#5 Gemini 3 Flash Preview low Google 10.0 8.8 1/1 4.99s
#6 Seed-2.0-Lite medium Bytedance Seed 10.0 8.6 1/1 12.4s
#7 GPT-5.3-Codex medium OpenAI 10.0 8.6 1/1 6.37s
#8 Qwen3.5 Plus 2026-02-15 medium Qwen 10.0 8.5 1/1 7.54s
#9 Qwen3.6 Plus Preview medium Qwen 10.0 8.5 1/1 5.87s
#10 Qwen3.5-27B medium Qwen 10.0 8.4 1/1 7.45s
#11 Gemini 3.1 Flash Lite Preview high Google 10.0 8.4 1/1 7.73s

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)