Ranking de fallos por Llamada de herramienta no válida

Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Fallos totales

100

Modelo más afectado

Granite 4.1 8B 2

Categorías

En la categoría Combinado91 En la categoría Llamada de herramientas9

83/83

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
Pruebas totales 22 Pruebas incorrectas 20 Costo total $0.007 Tiempo de respuesta (promedio) 1.45s
#162	Ling-2.6-1T none	Inclusionai	1	5.3	$0.016	4/22	8.58s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.016 Tiempo de respuesta (promedio) 8.58s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.021 Tiempo de respuesta (promedio) 19.2s
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.000 Tiempo de respuesta (promedio) 29.9s
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.166 Tiempo de respuesta (promedio) 142.6s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
Pruebas totales 19 Pruebas incorrectas 15 Costo total $0.009 Tiempo de respuesta (promedio) 2.89s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.044 Tiempo de respuesta (promedio) 36.8s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 1.55s
#172	MiniMax M2.7 medium	Minimax	1	5.0	$0.163	5/22	41.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.163 Tiempo de respuesta (promedio) 41.3s
#190	MiniMax M2.5 medium	Minimax	1	4.6	$0.340	5/22	68.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.340 Tiempo de respuesta (promedio) 68.3s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
Pruebas totales 21 Pruebas incorrectas 16 Costo total $0.000 Tiempo de respuesta (promedio) 1.22s
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Pruebas totales 19 Pruebas incorrectas 14 Costo total $0.004 Tiempo de respuesta (promedio) 806ms
#142	Qwen3.5-122B-A10B none	Qwen	1	5.7	$0.247	6/22	12.9s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.247 Tiempo de respuesta (promedio) 12.9s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.142 Tiempo de respuesta (promedio) 1.50s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.147 Tiempo de respuesta (promedio) 3.50s

1 2 3 4 5 6

→

Fallos por Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)