Ranking de modelos de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Llamada de herramientas

8.8

Mejor modelo

Hy3 preview 2.8

Motivos de fallo

Con motivo de fallo Error de API17 Con motivo de fallo Llamada de herramienta no válida9 Con motivo de fallo No siguió las instrucciones8 Con motivo de fallo Respuesta incorrecta3 Con motivo de fallo Sin respuesta2

216/216

Rango	Modelo	Empresa	Puntuación de Llamada de herramientas	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#27	Muse Spark 1.1 low	Meta	9.8	8.3	$0.647	1/1	5.98s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.647 Tiempo de respuesta (promedio) 5.98s
#50	DeepSeek V4 Pro high	DeepSeek	9.8	7.7	$0.200	1/1	15.9s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.200 Tiempo de respuesta (promedio) 15.9s
#95	Gemini 3.5 Flash-Lite low	Google	9.8	6.7	$0.145	1/1	1.76s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.145 Tiempo de respuesta (promedio) 1.76s
#127	gpt-oss-120b medium	OpenAI	9.8	6.1	$0.019	1/1	6.91s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.019 Tiempo de respuesta (promedio) 6.91s
#1	Gemini 3.6 Flash medium	Google	10.0	9.9	$0.831	1/1	8.55s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.831 Tiempo de respuesta (promedio) 8.55s
#2	Gemini 3.6 Flash high	Google	10.0	9.7	$1.785	1/1	9.76s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.785 Tiempo de respuesta (promedio) 9.76s
#3	Gemini 3 Flash Preview medium	Google	10.0	9.6	$0.742	1/1	12.6s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.742 Tiempo de respuesta (promedio) 12.6s
#5	GPT-5.6 Sol low	OpenAI	10.0	9.5	$0.971	1/1	7.56s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.971 Tiempo de respuesta (promedio) 7.56s
#6	Gemini 3.6 Flash low	Google	10.0	9.4	$0.517	1/1	4.78s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.517 Tiempo de respuesta (promedio) 4.78s
#7	GPT-5.6 Sol medium	OpenAI	10.0	9.4	$1.316	1/1	6.30s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.316 Tiempo de respuesta (promedio) 6.30s
#8	GPT-5.6 Sol high	OpenAI	10.0	9.4	$1.234	1/1	7.08s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.234 Tiempo de respuesta (promedio) 7.08s
#9	GPT-5.5 low	OpenAI	10.0	9.3	$1.253	1/1	4.96s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.253 Tiempo de respuesta (promedio) 4.96s
#10	Gemini 3.1 Pro Preview medium	Google	10.0	9.2	$1.361	1/1	23.1s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.361 Tiempo de respuesta (promedio) 23.1s
#11	Qwen3.7 Max medium	Qwen	10.0	9.2	$1.116	1/1	6.63s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.116 Tiempo de respuesta (promedio) 6.63s
#12	Gemini 3.5 Flash medium	Google	10.0	9.1	$0.642	1/1	3.81s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.642 Tiempo de respuesta (promedio) 3.81s

Ranking de Llamada de herramientas

Filtrar modelos

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)