Ranking de fallos por Llamada de herramienta no válida

Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

100

Modelo más afectado

Laguna Xs.2 1

Categorías

En la categoría Combinado91 En la categoría Llamada de herramientas9

83/83

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#205	Laguna Xs.2 none	Poolside	1	3.8	$0.004	5/19	806ms
Pruebas totales 19 Pruebas incorrectas 14 Costo total $0.004 Tiempo de respuesta (promedio) 806ms
#197	Grok 4.20 none	X AI	1	4.1	$0.057	6/18	1.11s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.057 Tiempo de respuesta (promedio) 1.11s
#191	Grok 4.20 Beta none	X AI	1	4.4	$0.087	6/18	1.19s
Pruebas totales 18 Pruebas incorrectas 12 Costo total $0.087 Tiempo de respuesta (promedio) 1.19s
#193	Elephant Alpha none	Openrouter	1	4.3	$0.000	5/21	1.22s
Pruebas totales 21 Pruebas incorrectas 16 Costo total $0.000 Tiempo de respuesta (promedio) 1.22s
#195	Elephant Alpha medium	Openrouter	1	4.3	$0.000	6/21	1.27s
Pruebas totales 21 Pruebas incorrectas 15 Costo total $0.000 Tiempo de respuesta (promedio) 1.27s
#201	Granite 4.1 8B none	IBM Granite	2	4.0	$0.007	2/22	1.45s
Pruebas totales 22 Pruebas incorrectas 20 Costo total $0.007 Tiempo de respuesta (promedio) 1.45s
#159	GPT-5.6 Luna none	OpenAI	1	5.4	$0.142	6/22	1.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.142 Tiempo de respuesta (promedio) 1.50s
#160	Laguna XS 2.1 none	Poolside	1	5.3	$0.008	5/22	1.55s
Pruebas totales 22 Pruebas incorrectas 17 Costo total $0.008 Tiempo de respuesta (promedio) 1.55s
#132	GPT-5.6 Terra none	OpenAI	1	6.0	$0.349	8/22	1.65s
Pruebas totales 22 Pruebas incorrectas 14 Costo total $0.349 Tiempo de respuesta (promedio) 1.65s
#88	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.300 Tiempo de respuesta (promedio) 2.65s
#78	Mercury 2 medium	Inception	1	7.0	$0.093	10/22	2.72s
Pruebas totales 22 Pruebas incorrectas 12 Costo total $0.093 Tiempo de respuesta (promedio) 2.72s
#192	Laguna M.1 none	Poolside	1	4.4	$0.009	4/19	2.89s
Pruebas totales 19 Pruebas incorrectas 15 Costo total $0.009 Tiempo de respuesta (promedio) 2.89s
#164	Inkling none	Thinkingmachines	1	5.2	$0.147	6/22	3.50s
Pruebas totales 22 Pruebas incorrectas 16 Costo total $0.147 Tiempo de respuesta (promedio) 3.50s
#124	Qwen3.6 Flash none	Qwen	2	6.1	$0.062	7/22	3.74s
Pruebas totales 22 Pruebas incorrectas 15 Costo total $0.062 Tiempo de respuesta (promedio) 3.74s
#65	Gemini 3.1 Flash Lite medium	Google	1	7.3	$0.117	13/22	4.27s
Pruebas totales 22 Pruebas incorrectas 9 Costo total $0.117 Tiempo de respuesta (promedio) 4.27s

1 2 3 4 5 6

→

Fallos por Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)