Falhas por categoria AI BENCHY
Específico do domínio: Resposta incorreta
Específico do domínio
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #7 | Gemini 3.5 Flash medium | 1 | 7.7 | 2/3 | 5.24s | |
| #8 | Claude Opus 4.7 none | Anthropic | 1 | 7.7 | 2/3 | 1.19s |
| #20 | Gemini 3.5 Flash none | 1 | 7.6 | 2/3 | 10.6s | |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 7.7 | 2/3 | 48.3s |
| #25 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 1 | 5.3 | 1/3 | 17.5s |
| #27 | Gemma 4 31B medium | 1 | 7.7 | 2/3 | 38.5s | |
| #30 | Qwen3.5-27B medium | Qwen | 1 | 5.3 | 1/3 | 79.5s |
| #34 | Qwen3.7 Max none | Qwen | 1 | 7.7 | 2/3 | 975ms |
| #42 | GPT-5.2 medium | OpenAI | 1 | 5.9 | 1/3 | 77.8s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 5.3 | 1/3 | 158.0s |
| #48 | Gemini 3 Flash Preview none | 1 | 7.7 | 2/3 | 963ms | |
| #49 | Qwen3.5-Flash medium | Qwen | 1 | 5.3 | 1/3 | 146.5s |
| #51 | Mimo V2 PRO medium | Xiaomi | 1 | 5.3 | 1/3 | 8.82s |
| #52 | Claude Sonnet 4.6 medium | Anthropic | 1 | 2.9 | 0/3 | 0ms |
| #55 | GLM 5.1 medium | Z.ai | 1 | 5.3 | 1/3 | 29.8s |