Ranking de fallos por Llamada de herramienta no válida

Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

100

Modelo más afectado

GLM 4.7 Flash 2

Categorías

En la categoría Combinado91 En la categoría Llamada de herramientas9

83/83

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#194	GLM 4.7 Flash medium	Z.ai	2	4.3	$0.166	4/22	142.6s
Pruebas totales 22 Pruebas incorrectas 18 Costo total $0.166 Tiempo de respuesta (promedio) 142.6s
#137	North Mini Code medium	Cohere	1	5.9	$0.000	9/22	137.1s
Pruebas totales 22 Pruebas incorrectas 13 Costo total $0.000 Tiempo de respuesta (promedio) 137.1s
#119	Qwen3.5-35B-A3B medium	Qwen	1	6.2	$0.837	11/22	112.5s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.837 Tiempo de respuesta (promedio) 112.5s
#58	Qwen3.5-27B medium	Qwen	1	7.4	$1.627	13/22	111.9s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $1.627 Tiempo de respuesta (promedio) 111.9s
#68	Kimi K2.6 medium	Moonshot AI	1	7.2	$1.036	12/22	110.0s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $1.036 Tiempo de respuesta (promedio) 110.0s
#99	Qwen3.6 27B medium	Qwen	2	6.5	$0.779	10/22	106.3s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.779 Tiempo de respuesta (promedio) 106.3s
#95	Gemma 4 26B A4B medium	Google	1	6.6	$0.089	14/22	103.8s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.089 Tiempo de respuesta (promedio) 103.8s
#77	Kimi K2.5 medium	Moonshot AI	1	7.0	$0.600	10/22	99.0s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.600 Tiempo de respuesta (promedio) 99.0s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	7.5	$0.437	14/22	89.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.437 Tiempo de respuesta (promedio) 89.2s
#114	Qwen3.5-Flash medium	Qwen	1	6.2	$0.139	12/22	84.8s
Pruebas totales 22 Pruebas incorrectas 10 Costo total $0.139 Tiempo de respuesta (promedio) 84.8s
#110	Gemma 4 31B medium	Google	1	6.3	$0.163	14/22	75.4s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.163 Tiempo de respuesta (promedio) 75.4s
#108	Ring-2.6-1T medium	Inclusionai	1	6.3	$0.103	11/22	68.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.103 Tiempo de respuesta (promedio) 68.7s
#76	DeepSeek V3.2 medium	DeepSeek	1	7.0	$0.078	11/22	68.6s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $0.078 Tiempo de respuesta (promedio) 68.6s
#190	MiniMax M2.5 medium	Minimax	1	4.6	$0.340	5/22	68.3s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.340 Tiempo de respuesta (promedio) 68.3s
#86	Step 3.7 Flash high	Stepfun	1	6.9	$1.207	11/22	64.7s
Pruebas totales 22 Pruebas incorrectas 11 Costo total $1.207 Tiempo de respuesta (promedio) 64.7s

1 2 3 4 5 6

→

Fallos por Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)