Falhas por categoria AI BENCHY
Inteligência geral: Não seguiu as instruções
Inteligência geral
Não seguiu as instruções
Veja quais modelos de IA têm mais chance de encontrar Não seguiu as instruções em Inteligência geral, para identificar pontos fracos mais rápido.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Não seguiu as instruções | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #57 | GPT-5 Nano medium | OpenAI | 1 | 4.1 | 0/1 | 17.5s |
| #58 | GLM 5V Turbo none | Z.ai | 1 | 4.6 | 0/1 | 2.22s |
| #60 | Gemma 4 26B A4B none | 1 | 4.0 | 0/1 | 3.54s | |
| #63 | Qwen3.5-35B-A3B none | Qwen | 1 | 6.5 | 0/1 | 1.19s |
| #65 | MiMo-V2-Pro none | Xiaomi | 1 | 4.3 | 0/1 | 2.44s |
| #67 | Qwen3.5-27B none | Qwen | 1 | 5.0 | 0/1 | 2.51s |
| #68 | gpt-oss-120b medium | OpenAI | 1 | 4.3 | 0/1 | 7.90s |
| #69 | Kimi K2.6 none | Moonshot AI | 1 | 5.4 | 0/1 | 1.55s |
| #70 | Qwen3.5-122B-A10B none | Qwen | 1 | 5.0 | 0/1 | 1.12s |
| #71 | MiniMax M2.5 medium | Minimax | 1 | 3.8 | 0/1 | 6.63s |
| #72 | Hunter Alpha none | OpenRouter | 1 | 6.1 | 0/1 | 2.71s |
| #73 | Mistral Small 4 medium | Mistral | 1 | 4.8 | 0/1 | 2.05s |
| #77 | GLM 5 Turbo none | Z.ai | 1 | 4.2 | 0/1 | 2.18s |
| #78 | Trinity Large Preview none | Arcee AI | 1 | 4.4 | 0/1 | 2.86s |
| #79 | Grok 4.20 Beta none | X AI | 1 | 5.0 | 0/1 | 541ms |