Ranking de Combinado x Llamada de herramienta no válida

Mira qué modelos de IA tienen más probabilidades de caer en Llamada de herramienta no válida dentro de Combinado, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

Laguna M.1 1

Motivos de fallo

Llamada de herramienta no válida91 Respuesta incorrecta68 Sin respuesta29 Error de API26 Tiempo agotado5 Formato extra1 No siguió las instrucciones1

Categorías

Combinado91 Llamada de herramientas9

77/77

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#192	Laguna M.1 none	Poolside	1	1.5	$0.009	0/1	4.32s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.009 Tiempo de respuesta (promedio) 4.32s
#197	Grok 4.20 none	X AI	1	1.5	$0.057	0/1	6.04s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.057 Tiempo de respuesta (promedio) 6.04s
#191	Grok 4.20 Beta none	X AI	1	1.5	$0.087	0/1	6.48s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.087 Tiempo de respuesta (promedio) 6.48s
#159	GPT-5.6 Luna none	OpenAI	1	3.2	$0.142	0/2	6.68s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.142 Tiempo de respuesta (promedio) 6.68s
#132	GPT-5.6 Terra none	OpenAI	1	2.9	$0.349	0/2	7.02s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.349 Tiempo de respuesta (promedio) 7.02s
#78	Mercury 2 medium	Inception	1	6.7	$0.093	1/2	7.84s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.093 Tiempo de respuesta (promedio) 7.84s
#201	Granite 4.1 8B none	IBM Granite	2	3.0	$0.007	0/2	9.28s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.007 Tiempo de respuesta (promedio) 9.28s
#55	GPT-5.6 Terra low	OpenAI	1	8.7	$0.519	1/2	9.68s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.519 Tiempo de respuesta (promedio) 9.68s
#160	Laguna XS 2.1 none	Poolside	1	3.0	$0.008	0/2	10.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.008 Tiempo de respuesta (promedio) 10.4s
#117	GPT-5.6 Luna low	OpenAI	1	2.8	$0.249	0/2	13.7s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.249 Tiempo de respuesta (promedio) 13.7s
#34	GPT-5.6 Terra high	OpenAI	1	8.7	$1.055	1/2	13.7s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $1.055 Tiempo de respuesta (promedio) 13.7s
#88	Gemini 3.5 Flash minimal	Google	2	3.0	$0.300	0/2	14.4s
Pruebas totales 2 Pruebas incorrectas 2 Costo total $0.300 Tiempo de respuesta (promedio) 14.4s
#93	GLM 5V Turbo medium	Z.ai	1	3.4	$0.457	0/1	15.1s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.457 Tiempo de respuesta (promedio) 15.1s
#64	Gemini 3.1 Flash Lite Preview medium	Google	1	7.2	$0.115	1/2	16.6s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.115 Tiempo de respuesta (promedio) 16.6s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.2	$0.117	1/2	18.5s
Pruebas totales 2 Pruebas incorrectas 1 Costo total $0.117 Tiempo de respuesta (promedio) 18.5s

1 2 3 4 5 6

→

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Combinado: Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado