Falhas por categoria AI BENCHY
Específico do domínio: Formatação extra
Específico do domínio
Formatação extra
Veja quais modelos de IA têm mais chance de encontrar Formatação extra em Específico do domínio, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↑.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Formatação extra | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #82 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |
| #50 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #47 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 55.1s |
| #37 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |