Ranking de modelos de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Métrica ↑.

Modelos mostrados

Promedio de Puntuación de Llamada de herramientas

8.7

Mejor modelo

Hy3 preview 2.8

Motivos de fallo

Con motivo de fallo Error de API17 Con motivo de fallo Llamada de herramienta no válida9 Con motivo de fallo No siguió las instrucciones8 Con motivo de fallo Respuesta incorrecta3 Con motivo de fallo Sin respuesta2

210/210

Rango	Modelo	Empresa	Puntuación de Llamada de herramientas	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#209	Step 3.5 Flash none	Stepfun	3.0	2.3	$0.020	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.020 Tiempo de respuesta (promedio) 0ms
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.001 Tiempo de respuesta (promedio) 0ms
#21	GPT-5.2 medium	OpenAI	4.7	8.4	$0.951	0/1	10.3s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.951 Tiempo de respuesta (promedio) 10.3s
#55	GPT-5.6 Terra low	OpenAI	4.7	7.5	$0.519	0/1	6.69s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.519 Tiempo de respuesta (promedio) 6.69s
#56	GPT-5.4 Mini medium	OpenAI	4.7	7.5	$0.756	0/1	9.62s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.756 Tiempo de respuesta (promedio) 9.62s
#172	MiniMax M2.7 medium	Minimax	4.7	5.0	$0.163	0/1	12.0s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.163 Tiempo de respuesta (promedio) 12.0s
#177	Nemotron 3 Super none	NVIDIA	4.7	4.9	$0.008	0/1	16.0s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 16.0s
#198	Laguna Xs.2 medium	Poolside	4.7	4.1	$0.015	0/1	3.39s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.015 Tiempo de respuesta (promedio) 3.39s
#93	GLM 5V Turbo medium	Z.ai	7.0	6.7	$0.457	0/1	12.5s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.457 Tiempo de respuesta (promedio) 12.5s
#152	Qwen3.6 27B none	Qwen	9.5	5.5	$0.087	1/1	6.74s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.087 Tiempo de respuesta (promedio) 6.74s
#171	North Mini Code none	Cohere	9.5	5.1	$0.000	1/1	3.64s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.000 Tiempo de respuesta (promedio) 3.64s
#27	Muse Spark 1.1 high	Meta	9.6	8.1	$1.694	1/1	9.88s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.694 Tiempo de respuesta (promedio) 9.88s
#132	GPT-5.6 Terra none	OpenAI	9.6	6.0	$0.349	1/1	3.10s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.349 Tiempo de respuesta (promedio) 3.10s
#2	Gemini 3.5 Flash high	Google	9.8	9.5	$1.976	1/1	4.96s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.976 Tiempo de respuesta (promedio) 4.96s
#16	Muse Spark 1.1 medium	Meta	9.8	8.6	$1.357	1/1	6.99s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $1.357 Tiempo de respuesta (promedio) 6.99s

Ranking de Llamada de herramientas

Filtrar modelos

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)