Ranking de Combinado x Llamada de herramienta no válida

Mira qué modelos de IA tienen más probabilidades de caer en Llamada de herramienta no válida dentro de Combinado, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

Fallos totales

Modelo más afectado

Qwen3.6 35B A3B 1

Motivos de fallo

Llamada de herramienta no válida91 Respuesta incorrecta68 Sin respuesta29 Error de API26 Tiempo agotado5 Formato extra1 No siguió las instrucciones1

Categorías

Combinado91 Llamada de herramientas9

77/77

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#90	Qwen3.6 35B A3B medium	Qwen	1	3.0	$0.746	0/2	817.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.746 Tiempo de respuesta (promedio) 817.6s
#194	GLM 4.7 Flash medium	Z.ai	2	2.9	$0.166	0/2	802.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.166 Tiempo de respuesta (promedio) 802.8s
#58	Qwen3.5-27B medium	Qwen	1	7.3	$1.627	1/2	595.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.627 Tiempo de respuesta (promedio) 595.2s
#99	Qwen3.6 27B medium	Qwen	2	6.7	$0.779	0/2	584.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.779 Tiempo de respuesta (promedio) 584.1s
#137	North Mini Code medium	Cohere	1	2.9	$0.000	0/2	554.9s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.000 Tiempo de respuesta (promedio) 554.9s
#119	Qwen3.5-35B-A3B medium	Qwen	1	3.8	$0.837	0/2	512.8s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.837 Tiempo de respuesta (promedio) 512.8s
#95	Gemma 4 26B A4B medium	Google	1	6.3	$0.089	1/2	492.9s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.089 Tiempo de respuesta (promedio) 492.9s
#68	Kimi K2.6 medium	Moonshot AI	1	6.9	$1.036	1/2	458.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.036 Tiempo de respuesta (promedio) 458.6s
#110	Gemma 4 31B medium	Google	1	2.9	$0.163	0/2	433.1s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.163 Tiempo de respuesta (promedio) 433.1s
#72	Qwen3.5-122B-A10B medium	Qwen	1	6.4	$1.046	1/2	313.5s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.046 Tiempo de respuesta (promedio) 313.5s
#85	Qwen3.6 Flash medium	Qwen	1	6.5	$0.738	1/2	299.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.738 Tiempo de respuesta (promedio) 299.2s
#8	Qwen3.7 Max medium	Qwen	1	8.7	$1.116	1/2	287.8s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.116 Tiempo de respuesta (promedio) 287.8s
#114	Qwen3.5-Flash medium	Qwen	1	6.4	$0.139	1/2	266.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.139 Tiempo de respuesta (promedio) 266.6s
#108	Ring-2.6-1T medium	Inclusionai	1	7.3	$0.103	1/2	257.3s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.103 Tiempo de respuesta (promedio) 257.3s
#125	Qwen3.5-Flash none	Qwen	1	2.9	$0.073	0/2	243.6s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.073 Tiempo de respuesta (promedio) 243.6s

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Combinado: Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado