Ranking de modelos de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias.

Modelos mostrados

Promedio de Puntuación de Llamada de herramientas

8.8

Mejor modelo

Gemini 3.6 Flash 10.0

Motivos de fallo

Con motivo de fallo Error de API17 Con motivo de fallo Llamada de herramienta no válida9 Con motivo de fallo No siguió las instrucciones8 Con motivo de fallo Respuesta incorrecta3 Con motivo de fallo Sin respuesta2

216/216

Rango	Modelo	Empresa	Puntuación de Llamada de herramientas	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#146	Nemotron 3 Super medium	NVIDIA	10.0	5.7	$0.055	1/1	39.7s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.055 Tiempo de respuesta (promedio) 39.7s
#147	GLM 5 none	Z.ai	10.0	5.7	$0.041	1/1	11.1s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.041 Tiempo de respuesta (promedio) 11.1s
#148	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.247 Tiempo de respuesta (promedio) 2.04s
#149	Gemini 3.1 Flash Lite high	Google	10.0	5.6	$2.044	1/1	6.44s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $2.044 Tiempo de respuesta (promedio) 6.44s
#150	KAT-Coder-Air V2.5 high	Kwaipilot	10.0	5.6	$0.077	1/1	4.77s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.077 Tiempo de respuesta (promedio) 4.77s
#151	GLM 5V Turbo none	Z.ai	10.0	5.6	$0.052	1/1	4.86s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.052 Tiempo de respuesta (promedio) 4.86s
#152	Owl Alpha medium	Openrouter	10.0	5.6	$0.000	1/1	8.26s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.000 Tiempo de respuesta (promedio) 8.26s
#153	Mimo V2 PRO none	Xiaomi	10.0	5.6	$0.045	1/1	4.39s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.045 Tiempo de respuesta (promedio) 4.39s
#154	Owl Alpha none	Openrouter	10.0	5.6	$0.000	1/1	22.8s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.000 Tiempo de respuesta (promedio) 22.8s
#155	KAT-Coder-Air V2.5 medium	Kwaipilot	10.0	5.6	$0.048	1/1	4.77s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.048 Tiempo de respuesta (promedio) 4.77s
#156	DeepSeek V4 Flash none	DeepSeek	10.0	5.6	$0.042	1/1	77.9s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.042 Tiempo de respuesta (promedio) 77.9s
#157	GLM 5.1 none	Z.ai	10.0	5.5	$0.164	1/1	10.7s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.164 Tiempo de respuesta (promedio) 10.7s
#160	MiMo-V2.5-Pro none	Xiaomi	10.0	5.5	$0.068	1/1	3.30s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.068 Tiempo de respuesta (promedio) 3.30s
#161	Kimi K2.5 none	Moonshot AI	10.0	5.5	$0.127	1/1	14.0s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.127 Tiempo de respuesta (promedio) 14.0s
#162	Gemma 4 26B A4B none	Google	10.0	5.5	$0.015	1/1	57.1s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.015 Tiempo de respuesta (promedio) 57.1s

Ranking de Llamada de herramientas

Filtrar modelos

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)