Ranking de Combinado x Llamada de herramienta no válida

Mira qué modelos de IA tienen más probabilidades de caer en Llamada de herramienta no válida dentro de Combinado, para detectar puntos débiles más rápido. Ordenar por: Cantidad de fallos ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Gemini 3.5 Flash 1

Motivos de fallo

Llamada de herramienta no válida91 Respuesta incorrecta68 Sin respuesta29 Error de API26 Tiempo agotado5 Formato extra1 No siguió las instrucciones1

Categorías

Combinado91 Llamada de herramientas9

77/77

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#2	Gemini 3.5 Flash high	Google	1	8.2	$1.976	1/2	84.1s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.976 Tiempo de respuesta (promedio) 84.1s
#8	Qwen3.7 Max medium	Qwen	1	8.7	$1.116	1/2	287.8s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.116 Tiempo de respuesta (promedio) 287.8s
#11	Gemini 3.5 Flash low	Google	1	8.2	$0.433	1/2	30.0s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.433 Tiempo de respuesta (promedio) 30.0s
#16	Muse Spark 1.1 medium	Meta	1	8.3	$1.357	1/2	42.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.357 Tiempo de respuesta (promedio) 42.6s
#17	Claude Fable 5 medium	Anthropic	1	6.5	$3.478	1/2	27.5s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $3.478 Tiempo de respuesta (promedio) 27.5s
#23	Claude Sonnet 5 medium	Anthropic	1	7.3	$0.922	1/2	51.9s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.922 Tiempo de respuesta (promedio) 51.9s
#24	Muse Spark 1.1 low	Meta	1	6.6	$0.647	1/2	29.4s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.647 Tiempo de respuesta (promedio) 29.4s
#28	Inkling high	Thinkingmachines	1	7.3	$1.006	1/2	63.8s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.006 Tiempo de respuesta (promedio) 63.8s
#29	Step 3.7 Flash medium	Stepfun	1	7.3	$0.515	1/2	80.9s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.515 Tiempo de respuesta (promedio) 80.9s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.055 Tiempo de respuesta (promedio) 13.7s
#36	Qwen3.7 Plus medium	Qwen	1	8.2	$0.267	1/2	190.3s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.267 Tiempo de respuesta (promedio) 190.3s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.4	$0.042	1/2	104.1s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.042 Tiempo de respuesta (promedio) 104.1s
#51	Nemotron 3 Ultra medium	NVIDIA	1	6.3	$0.774	1/2	218.2s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.774 Tiempo de respuesta (promedio) 218.2s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.519 Tiempo de respuesta (promedio) 9.68s
#56	GPT-5.4 Mini medium	OpenAI	1	6.9	$0.756	1/2	59.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.756 Tiempo de respuesta (promedio) 59.6s

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Combinado: Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado