Ranking de Chamada de ferramentas x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Chamada de ferramentas, para identificar pontos fracos mais rápido. Ordenar por: Testes corretos ↑.

Modelos exibidos

Falhas totais

Modelo mais afetado

GPT-5.4 Mini 1

Motivos de falha

Erro de API17 Chamada de ferramenta inválida9 Não seguiu as instruções8 Resposta incorreta3 Sem resposta2

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

8/8

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#56	GPT-5.4 Mini medium	OpenAI	1	4.7	$0.756	0/1	9.62s
Total de testes 1 Testes errados 1 Custo total $0.756 Tempo de resposta (médio) 9.62s
#75	Grok 4.20 medium	X AI	1	3.0	$0.777	0/1	13.7s
Total de testes 1 Testes errados 1 Custo total $0.777 Tempo de resposta (médio) 13.7s
#123	Inkling low	Thinkingmachines	1	3.0	$0.187	0/1	2.57s
Total de testes 1 Testes errados 1 Custo total $0.187 Tempo de resposta (médio) 2.57s
#131	Grok 4.20 Beta medium	X AI	1	3.0	$0.750	0/1	12.4s
Total de testes 1 Testes errados 1 Custo total $0.750 Tempo de resposta (médio) 12.4s
#136	GPT-5.4 Mini none	OpenAI	1	3.0	$0.095	0/1	2.32s
Total de testes 1 Testes errados 1 Custo total $0.095 Tempo de resposta (médio) 2.32s
#164	Inkling none	Thinkingmachines	1	3.0	$0.147	0/1	2.50s
Total de testes 1 Testes errados 1 Custo total $0.147 Tempo de resposta (médio) 2.50s
#172	MiniMax M2.7 medium	Minimax	1	4.7	$0.163	0/1	12.0s
Total de testes 1 Testes errados 1 Custo total $0.163 Tempo de resposta (médio) 12.0s
#177	Nemotron 3 Super none	NVIDIA	1	4.7	$0.008	0/1	16.0s
Total de testes 1 Testes errados 1 Custo total $0.008 Tempo de resposta (médio) 16.0s

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Chamada de ferramentas: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado