Ranking de Inteligência geral x Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.

Modelos exibidos

Falhas totais

Modelo mais afetado

Qwen3.5-27B 1

Motivos de falha

Não seguiu as instruções78 Resposta incorreta59 Erro de API12 Tempo esgotado4

Categorias

Resolução de quebra-cabeças90 Inteligência geral78 Truques anti-IA33 Seguimento de instruções18 Programação16 Chamada de ferramentas8 Combinado1 Específico do domínio1

78/78

Posição	Modelo	Empresa	Contagem de Não seguiu as instruções	Pontuação da categoria	Custo total	Testes corretos	Tempo de resposta (médio)
#58	Qwen3.5-27B medium	Qwen	1	6.1	$1.627	0/1	101.4s
Total de testes 1 Testes errados 1 Custo total $1.627 Tempo de resposta (médio) 101.4s
#77	Kimi K2.5 medium	Moonshot AI	1	6.5	$0.600	0/1	69.7s
Total de testes 1 Testes errados 1 Custo total $0.600 Tempo de resposta (médio) 69.7s
#146	Owl Alpha medium	Openrouter	1	4.3	$0.000	0/1	58.6s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 58.6s
#108	Ring-2.6-1T medium	Inclusionai	1	4.1	$0.103	0/1	58.3s
Total de testes 1 Testes errados 1 Custo total $0.103 Tempo de resposta (médio) 58.3s
#143	Gemini 3.1 Flash Lite high	Google	1	5.0	$2.044	0/1	45.7s
Total de testes 1 Testes errados 1 Custo total $2.044 Tempo de resposta (médio) 45.7s
#114	Qwen3.5-Flash medium	Qwen	1	6.1	$0.139	0/1	40.1s
Total de testes 1 Testes errados 1 Custo total $0.139 Tempo de resposta (médio) 40.1s
#99	Qwen3.6 27B medium	Qwen	1	6.5	$0.779	0/1	39.5s
Total de testes 1 Testes errados 1 Custo total $0.779 Tempo de resposta (médio) 39.5s
#172	MiniMax M2.7 medium	Minimax	1	3.9	$0.163	0/1	38.7s
Total de testes 1 Testes errados 1 Custo total $0.163 Tempo de resposta (médio) 38.7s
#80	Seed-2.0-Mini medium	Bytedance Seed	1	5.1	$0.101	0/1	36.7s
Total de testes 1 Testes errados 1 Custo total $0.101 Tempo de resposta (médio) 36.7s
#47	MiniMax M3 medium	Minimax	1	5.1	$0.286	0/1	33.3s
Total de testes 1 Testes errados 1 Custo total $0.286 Tempo de resposta (médio) 33.3s
#37	Qwen3.6 Plus medium	Qwen	1	5.1	$0.405	0/1	27.1s
Total de testes 1 Testes errados 1 Custo total $0.405 Tempo de resposta (médio) 27.1s
#45	DeepSeek V4 Flash high	DeepSeek	1	6.1	$0.042	0/1	25.2s
Total de testes 1 Testes errados 1 Custo total $0.042 Tempo de resposta (médio) 25.2s
#73	Grok 4.3 medium	X AI	1	5.4	$0.779	0/1	24.7s
Total de testes 1 Testes errados 1 Custo total $0.779 Tempo de resposta (médio) 24.7s
#75	Grok 4.20 medium	X AI	1	3.9	$0.777	0/1	24.5s
Total de testes 1 Testes errados 1 Custo total $0.777 Tempo de resposta (médio) 24.5s
#188	Cobuddy medium	Baidu	1	4.2	$0.000	0/1	23.2s
Total de testes 1 Testes errados 1 Custo total $0.000 Tempo de resposta (médio) 23.2s

1 2 3 4 5 6

→

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado

Inteligência geral: Não seguiu as instruções

Filtrar modelos

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado