Falhas por categoria AI BENCHY
Específico do domínio: Formatação extra
Específico do domínio
Formatação extra
Veja quais modelos de IA têm mais chance de encontrar Formatação extra em Específico do domínio, para identificar pontos fracos mais rápido.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Formatação extra | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #43 | MiMo-V2.5-Pro medium | Xiaomi | 2 | 5.3 | 1/3 | 37.9s |
| #69 | Claude Opus 4.6 medium | Anthropic | 2 | 3.0 | 0/3 | 83.4s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 1/3 | 158.0s |
| #52 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #56 | MiMo-V2.5 medium | Xiaomi | 1 | 5.3 | 1/3 | 34.5s |
| #65 | Grok 4.20 medium | X AI | 1 | 5.3 | 1/3 | 27.0s |
| #79 | Hunter Alpha medium | OpenRouter | 1 | 3.0 | 0/3 | 10.5s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 3.0 | 0/3 | 47.9s |
| #84 | Grok 4.20 Multi Agent Beta medium | X AI | 1 | 2.9 | 0/3 | 24.7s |
| #127 | Grok 4.20 none | X AI | 1 | 3.0 | 0/3 | 687ms |