Ranking de Llamada de herramientas x Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Llamada de herramientas, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↓.

Modelos mostrados

Fallos totales

Modelo más afectado

GPT-5.6 Terra 1

Motivos de fallo

Error de API17 Llamada de herramienta no válida9 No siguió las instrucciones8 Respuesta incorrecta3 Sin respuesta2

Categorías

Específico del dominio412 Trucos anti-IA293 Programación252 Resolución de acertijos201 Cultura general168 Combinado68 Seguimiento de instrucciones61 Inteligencia general59 Análisis y extracción de datos41 Llamada de herramientas3

3/3

Rango	Modelo	Empresa	Cantidad de Respuesta incorrecta	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#55	GPT-5.6 Terra low	OpenAI	1	4.7	$0.519	0/1	6.69s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.519 Tiempo de respuesta (promedio) 6.69s
#176	GLM 4.7 Flash none	Z.ai	1	2.8	$0.016	0/1	7.05s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.016 Tiempo de respuesta (promedio) 7.05s
#203	Grok 4.1 Fast none	X AI	1	2.8	$0.008	0/1	5.51s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 5.51s

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Llamada de herramientas: Respuesta incorrecta

Filtrar modelos

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado