Falhas por categoria AI BENCHY
Seguimento de instruções
Resposta incorreta
Seguimento de instruções
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Seguimento de instruções, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.
Motivos de falha relacionados
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #37 | Qwen3.5-Flash none | Qwen | 1 | 5.0 | 1/2 | 8.81s |
| #48 | Qwen3 Coder Next none | Qwen | 2 | 4.5 | 0/2 | 7.71s |
| #50 | Qwen3 Coder Next medium | Qwen | 1 | 4.5 | 0/2 | 7.34s |
| #15 | GPT-5.2 Chat none | OpenAI | 1 | 6.0 | 1/2 | 5.46s |
| #19 | GPT-5.3 Chat none | OpenAI | 1 | 9.0 | 1/2 | 3.29s |
| #52 | GLM 4.7 Flash medium | Z.ai | 1 | 5.0 | 1/2 | 2.97s |
| #46 | Kimi K2.5 none | Moonshot AI | 1 | 5.5 | 1/2 | 2.67s |
| #25 | Claude Sonnet 4.6 none | Anthropic | 1 | 5.5 | 1/2 | 1.96s |
| #20 | Gemini 3 Flash Preview none | 1 | 5.5 | 1/2 | 1.58s | |
| #47 | GPT-4o-mini none | OpenAI | 1 | 4.5 | 0/2 | 1.27s |
| #45 | Trinity Large Preview none | Arcee AI | 1 | 3.5 | 0/2 | 1.09s |
| #55 | LFM2-24B-A2B none | Liquid | 2 | 4.5 | 0/2 | 1.09s |
| #44 | GPT-5.4 none | OpenAI | 1 | 5.5 | 1/2 | 1.07s |
| #53 | Grok 4.1 Fast none | X AI | 2 | 10.0 | 0/2 | 923ms |
| #49 | GLM 4.7 Flash none | Z.ai | 1 | 5.5 | 1/2 | 888ms |
| #54 | MiMo-V2-Flash none | Xiaomi | 1 | 5.5 | 1/2 | 857ms |
| #41 | Qwen3.5-27B none | Qwen | 2 | 4.5 | 0/2 | 815ms |
| #42 | Qwen3.5-35B-A3B none | Qwen | 1 | 5.0 | 1/2 | 809ms |
| #38 | Gemini 2.5 Flash none | 1 | 9.0 | 1/2 | 672ms | |
| #40 | Qwen3.5-122B-A10B none | Qwen | 2 | 4.5 | 0/2 | 585ms |
| #51 | Mercury 2 none | Inception | 1 | 5.5 | 1/2 | 551ms |