AI BENCHY
Your ad here

Falhas AI BENCHY

Falhas por Não seguiu as instruções

Veja quais modelos de IA encontram Não seguiu as instruções com mais frequência para identificar riscos de confiabilidade antes de escolher. Ordenar por: Pontuação ↓.

Modelos exibidos

15

Falhas totais

180

Modelo mais afetado

Seed-2.0-Lite 2
Posição Modelo Empresa Contagem de Não seguiu as instruções Pontuação Testes corretos Tempo de resposta (médio)
#62 Gemini 2.5 Flash none Google 1 6.2 7/18 903ms
#63 Qwen3.5-35B-A3B none Qwen 2 6.1 7/18 3.82s
#65 MiMo-V2-Pro none Xiaomi 2 6.0 7/18 2.39s
#66 GPT-5.4 none OpenAI 1 5.9 7/18 1.51s
#67 Qwen3.5-27B none Qwen 2 5.9 6/18 1.74s
#68 gpt-oss-120b medium OpenAI 4 5.8 7/18 16.1s
#69 Kimi K2.6 none Moonshot AI 3 5.8 7/18 2.05s
#70 Qwen3.5-122B-A10B none Qwen 1 5.7 6/18 3.69s
#71 MiniMax M2.5 medium Minimax 3 5.7 5/18 39.6s
#72 Hunter Alpha none OpenRouter 2 5.7 6/18 4.58s
#73 Mistral Small 4 medium Mistral 3 5.7 5/18 5.64s
#74 GLM 4.7 Flash none Z.ai 2 5.6 5/18 3.35s
#75 GLM 5.1 none Z.ai 2 5.6 5/18 4.33s
#77 GLM 5 Turbo none Z.ai 2 5.5 6/18 2.94s
#78 Trinity Large Preview none Arcee AI 2 5.3 5/18 5.07s

Melhores modelos por Contagem de Não seguiu as instruções

Contagem de Não seguiu as instruções vs Pontuação

Melhores modelos por Tempo de resposta (médio)