Ranking de fallos por Llamada de herramienta no válida

Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Puntuación ↑.

Modelos mostrados

Fallos totales

100

Modelo más afectado

Laguna Xs.2 1

Categorías

En la categoría Combinado91 En la categoría Llamada de herramientas9

83/83

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#171	North Mini Code none	Cohere	2	5.1	$0.000	4/22	29.9s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.000 Tiempo de respuesta (promedio) 29.9s
#169	Qwen3.5-9B none	Qwen	2	5.1	$0.021	4/22	19.2s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.021 Tiempo de respuesta (promedio) 19.2s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.147 Tiempo de respuesta (promedio) 3.50s
#162	Ling-2.6-1T none	Inclusionai	1	5.3	$0.016	4/22	8.58s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.016 Tiempo de respuesta (promedio) 8.58s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 1.55s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.142 Tiempo de respuesta (promedio) 1.50s
#156	Gemma 4 26B A4B none	Google	1	5.5	$0.015	8/22	7.64s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.015 Tiempo de respuesta (promedio) 7.64s
#152	Qwen3.6 27B none	Qwen	2	5.5	$0.087	7/22	10.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.087 Tiempo de respuesta (promedio) 10.7s
#151	GLM 5.1 none	Z.ai	1	5.5	$0.164	7/22	6.70s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.164 Tiempo de respuesta (promedio) 6.70s
#150	DeepSeek V4 Flash none	DeepSeek	2	5.6	$0.044	5/22	36.8s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.044 Tiempo de respuesta (promedio) 36.8s
#142	Qwen3.5-122B-A10B none	Qwen	1	5.7	$0.247	6/22	12.9s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.247 Tiempo de respuesta (promedio) 12.9s
#137	North Mini Code medium	Cohere	1	5.9	$0.000	9/22	137.1s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.000 Tiempo de respuesta (promedio) 137.1s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.349 Tiempo de respuesta (promedio) 1.65s
#127	Qwen3.5-35B-A3B none	Qwen	1	6.1	$0.106	7/22	12.7s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.106 Tiempo de respuesta (promedio) 12.7s
#125	Qwen3.5-Flash none	Qwen	1	6.1	$0.073	8/22	25.3s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.073 Tiempo de respuesta (promedio) 25.3s

←

1 2 3 4 5 6

→

Fallos por Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)