Ranking de Llamada de herramientas x No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Llamada de herramientas, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

Fallos totales

Modelo más afectado

GPT-5.4 Mini 1

Motivos de fallo

Error de API17 Llamada de herramienta no válida9 No siguió las instrucciones8 Respuesta incorrecta3 Sin respuesta2

Categorías

Resolución de acertijos90 Inteligencia general78 Trucos anti-IA33 Seguimiento de instrucciones18 Programación16 Llamada de herramientas8 Combinado1 Específico del dominio1

8/8

Rango	Modelo	Empresa	Cantidad de No siguió las instrucciones	Puntuación de categoría	Costo total	Pruebas correctas	Tiempo de respuesta (promedio)
#136	GPT-5.4 Mini none	OpenAI	1	3.0	$0.095	0/1	2.32s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.095 Tiempo de respuesta (promedio) 2.32s
#164	Inkling none	Thinkingmachines	1	3.0	$0.147	0/1	2.50s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.147 Tiempo de respuesta (promedio) 2.50s
#123	Inkling low	Thinkingmachines	1	3.0	$0.187	0/1	2.57s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.187 Tiempo de respuesta (promedio) 2.57s
#56	GPT-5.4 Mini medium	OpenAI	1	4.7	$0.756	0/1	9.62s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.756 Tiempo de respuesta (promedio) 9.62s
#172	MiniMax M2.7 medium	Minimax	1	4.7	$0.163	0/1	12.0s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.163 Tiempo de respuesta (promedio) 12.0s
#131	Grok 4.20 Beta medium	X AI	1	3.0	$0.750	0/1	12.4s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.750 Tiempo de respuesta (promedio) 12.4s
#75	Grok 4.20 medium	X AI	1	3.0	$0.777	0/1	13.7s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.777 Tiempo de respuesta (promedio) 13.7s
#177	Nemotron 3 Super none	NVIDIA	1	4.7	$0.008	0/1	16.0s
Pruebas totales 1 Pruebas incorrectas 1 Costo total $0.008 Tiempo de respuesta (promedio) 16.0s

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado

Llamada de herramientas: No siguió las instrucciones

Filtrar modelos

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado