Falhas por categoria AI BENCHY
Específico do domínio: Formatação extra
Específico do domínio
Formatação extra
Veja quais modelos de IA têm mais chance de encontrar Formatação extra em Específico do domínio, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Formatação extra | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #37 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |
| #35 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 55.1s |
| #47 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #56 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #50 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #82 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |