Ranking de fallos por Llamada de herramienta no válida

Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↑.

Modelos mostrados

Fallos totales

100

Modelo más afectado

Granite 4.1 8B 2

Categorías

En la categoría Combinado91 En la categoría Llamada de herramientas9

83/83

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#173	DeepSeek V3.2 none	DeepSeek	2	5.0	$0.054	6/22	18.3s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.054 Tiempo de respuesta (promedio) 18.3s
#176	GLM 4.7 Flash none	Z.ai	2	4.9	$0.016	6/22	9.15s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.016 Tiempo de respuesta (promedio) 9.15s
#178	Ling-2.6-flash none	Inclusionai	3	4.9	$0.002	6/22	10.7s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.002 Tiempo de respuesta (promedio) 10.7s
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	6/21	1.27s
Pruebas totales 21 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 1.27s
#198	Laguna Xs.2 medium	Poolside	1	4.1	$0.015	6/19	6.73s
Pruebas totales 19 Pruebas incorrectas 13 Costo total $0.015 Tiempo de respuesta (promedio) 6.73s
#124	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.062 Tiempo de respuesta (promedio) 3.74s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.1	$0.106	7/22	12.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.106 Tiempo de respuesta (promedio) 12.7s
#151	GLM 5.1 none	Z.ai	1	5.5	$0.164	7/22	6.70s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.164 Tiempo de respuesta (promedio) 6.70s
#152	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.087 Tiempo de respuesta (promedio) 10.7s
#188	Cobuddy medium	Baidu	1	4.7	$0.000	7/21	39.9s
Pruebas totales 21 Pruebas incorrectas 14 Costo total $0.000 Tiempo de respuesta (promedio) 39.9s
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.087 Tiempo de respuesta (promedio) 1.19s
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.057 Tiempo de respuesta (promedio) 1.11s
#125	Qwen3.5-Flash none	Qwen	1	6.1	$0.073	8/22	25.3s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.073 Tiempo de respuesta (promedio) 25.3s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.349 Tiempo de respuesta (promedio) 1.65s
#156	Gemma 4 26B A4B none	Google	1	5.5	$0.015	8/22	7.64s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.015 Tiempo de respuesta (promedio) 7.64s

←

1 2 3 4 5 6

→

Fallos por Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)