Ranking de modelos de Llamada de herramientas

Mira qué modelos de IA rinden mejor en Llamada de herramientas, cuáles se mantienen fiables y dónde aparecen las mayores diferencias. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Promedio de Puntuación de Llamada de herramientas

8.7

Mejor modelo

Kimi K3 3.0

Motivos de fallo

Con motivo de fallo Error de API17 Con motivo de fallo Llamada de herramienta no válida9 Con motivo de fallo No siguió las instrucciones8 Con motivo de fallo Respuesta incorrecta3 Con motivo de fallo Sin respuesta2

210/210

Rango	Modelo	Empresa	Puntuación de Llamada de herramientas	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#210	LFM2-24B-A2B none	Liquid	3.0	2.2	$0.001	0/1	0ms
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.001 Tiempo de respuesta (promedio) 0ms
#189	Mercury 2 none	Inception	10.0	4.6	$0.030	1/1	1.27s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.030 Tiempo de respuesta (promedio) 1.27s
#169	Qwen3.5-9B none	Qwen	10.0	5.1	$0.021	1/1	1.27s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.021 Tiempo de respuesta (promedio) 1.27s
#160	Laguna XS 2.1 none	Poolside	10.0	5.3	$0.008	1/1	1.36s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.008 Tiempo de respuesta (promedio) 1.36s
#165	Mistral Small 4 none	Mistral	10.0	5.1	$0.022	1/1	1.40s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.022 Tiempo de respuesta (promedio) 1.40s
#78	Mercury 2 medium	Inception	10.0	7.0	$0.093	1/1	1.89s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.093 Tiempo de respuesta (promedio) 1.89s
#118	Gemini 2.5 Flash none	Google	10.0	6.2	$0.017	1/1	1.91s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.017 Tiempo de respuesta (promedio) 1.91s
#205	Laguna Xs.2 none	Poolside	3.0	3.8	$0.004	0/1	1.93s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.004 Tiempo de respuesta (promedio) 1.93s
#142	Qwen3.5-122B-A10B none	Qwen	10.0	5.7	$0.247	1/1	2.04s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.247 Tiempo de respuesta (promedio) 2.04s
#201	Granite 4.1 8B none	IBM Granite	10.0	4.0	$0.007	1/1	2.17s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.007 Tiempo de respuesta (promedio) 2.17s
#200	MiMo-V2-Flash none	Xiaomi	10.0	4.0	$0.025	1/1	2.28s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.025 Tiempo de respuesta (promedio) 2.28s
#127	Qwen3.5-35B-A3B none	Qwen	10.0	6.1	$0.106	1/1	2.30s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.106 Tiempo de respuesta (promedio) 2.30s
#136	GPT-5.4 Mini none	OpenAI	3.0	5.9	$0.095	0/1	2.32s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.095 Tiempo de respuesta (promedio) 2.32s
#168	MiMo-V2.5 none	Xiaomi	10.0	5.1	$0.025	1/1	2.43s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.025 Tiempo de respuesta (promedio) 2.43s
#166	Qwen3 Coder Next none	Qwen	10.0	5.1	$0.025	1/1	2.47s
Pruebas totales 1 Pruebas incorrectas 0 Costo total $0.025 Tiempo de respuesta (promedio) 2.47s

Ranking de Llamada de herramientas

Filtrar modelos

Mejores modelos por Puntuación de Llamada de herramientas

Puntuación de Llamada de herramientas vs costo total

Mejores modelos por Tiempo de respuesta (promedio)