Ranking de fallos por Llamada de herramienta no válida

Mira qué modelos de IA se encuentran con Llamada de herramienta no válida con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Fallos totales

100

Modelo más afectado

Gemini 3.5 Flash 1

Categorías

En la categoría Combinado91 En la categoría Llamada de herramientas9

83/83

Rango	Modelo	Empresa	Cantidad de Llamada de herramienta no válida	Puntuación	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#2	Gemini 3.5 Flash high	Google	1	9.5	$1.976	20/22	15.1s
Pruebas totales 22 Pruebas incorrectas 2 Costo total $1.976 Tiempo de respuesta (promedio) 15.1s
#11	Gemini 3.5 Flash low	Google	1	8.9	$0.433	19/22	5.55s
Pruebas totales 22 Pruebas incorrectas 3 Costo total $0.433 Tiempo de respuesta (promedio) 5.55s
#8	Qwen3.7 Max medium	Qwen	1	9.2	$1.116	18/22	40.6s
Pruebas totales 22 Pruebas incorrectas 4 Costo total $1.116 Tiempo de respuesta (promedio) 40.6s
#17	Claude Fable 5 medium	Anthropic	1	8.6	$3.478	17/22	17.2s
Pruebas totales 22 Pruebas incorrectas 5 Costo total $3.478 Tiempo de respuesta (promedio) 17.2s
#23	Claude Sonnet 5 medium	Anthropic	1	8.3	$0.922	16/22	12.5s
Pruebas totales 22 Pruebas incorrectas 6 Costo total $0.922 Tiempo de respuesta (promedio) 12.5s
#16	Muse Spark 1.1 medium	Meta	1	8.6	$1.357	15/22	25.0s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.357 Tiempo de respuesta (promedio) 25.0s
#28	Inkling high	Thinkingmachines	2	8.0	$1.006	15/22	64.2s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $1.006 Tiempo de respuesta (promedio) 64.2s
#32	Inkling medium	Thinkingmachines	1	8.0	$0.391	15/22	16.2s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.391 Tiempo de respuesta (promedio) 16.2s
#36	Qwen3.7 Plus medium	Qwen	1	7.9	$0.267	15/22	51.5s
Pruebas totales 22 Pruebas incorrectas 7 Costo total $0.267 Tiempo de respuesta (promedio) 51.5s
#29	Step 3.7 Flash medium	Stepfun	1	8.0	$0.515	14/22	26.4s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.515 Tiempo de respuesta (promedio) 26.4s
#34	GPT-5.6 Terra high	OpenAI	1	8.0	$1.055	14/22	11.3s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.055 Tiempo de respuesta (promedio) 11.3s
#57	Qwen3.5 Plus 2026-02-15 medium	Qwen	1	7.5	$0.437	14/22	89.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.437 Tiempo de respuesta (promedio) 89.2s
#72	Qwen3.5-122B-A10B medium	Qwen	1	7.1	$1.046	14/22	64.2s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $1.046 Tiempo de respuesta (promedio) 64.2s
#88	Gemini 3.5 Flash minimal	Google	2	6.8	$0.300	14/22	2.65s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.300 Tiempo de respuesta (promedio) 2.65s
#95	Gemma 4 26B A4B medium	Google	1	6.6	$0.089	14/22	103.8s
Pruebas totales 22 Pruebas incorrectas 8 Costo total $0.089 Tiempo de respuesta (promedio) 103.8s

1 2 3 4 5 6

→

Fallos por Llamada de herramienta no válida

Filtrar modelos

Mejores modelos por Cantidad de Llamada de herramienta no válida

Cantidad de Llamada de herramienta no válida vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)