AI BENCHY
Advertise here

Falhas por categoria AI BENCHY

Inteligência geral: Não seguiu as instruções

Inteligência geral
Não seguiu as instruções

Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.

Modelos exibidos

15

Falhas totais

74

Modelo mais afetado

LFM2-24B-A2B 1
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação da categoria Testes corretos Tempo de resposta (médio)
#160 LFM2-24B-A2B none Liquid 1 4.0 0/1 395ms
#106 Grok 4.20 Beta none X AI 1 5.0 0/1 541ms
#154 Qwen3.5-9B none Qwen 1 4.4 0/1 552ms
#155 Mercury 2 none Inception 1 4.8 0/1 628ms
#58 Gemini 3.1 Flash Lite Preview none Google 1 4.0 0/1 741ms
#87 Gemini 3.1 Flash Lite minimal Google 1 4.0 0/1 791ms
#81 Mercury 2 medium Inception 1 4.8 0/1 821ms
#137 Elephant Alpha none Openrouter 1 4.0 0/1 854ms
#151 Trinity Large Preview none Arcee AI 1 4.5 0/1 873ms
#136 Elephant Alpha medium Openrouter 1 4.3 0/1 920ms
#118 Qwen3.6 27B none Qwen 1 5.2 0/1 1.07s
#157 Grok 4.1 Fast none X AI 1 4.4 0/1 1.08s
#131 Qwen3.5-122B-A10B none Qwen 1 5.0 0/1 1.12s
#117 Qwen3.5-35B-A3B none Qwen 1 6.5 0/1 1.19s
#148 GPT-5.4 Nano none OpenAI 1 3.8 0/1 1.31s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)

Melhores modelos por Custo desperdiçado estimado