Falhas por categoria AI BENCHY
Específico do domínio: Resposta incorreta
Específico do domínio
Resposta incorreta
Veja quais modelos de IA têm mais chance de encontrar Resposta incorreta em Específico do domínio, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Resposta incorreta | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #71 | MiniMax M2.5 medium | Minimax | 2 | 2.9 | 0/3 | 237.3s |
| #57 | GPT-5 Nano medium | OpenAI | 1 | 5.2 | 1/3 | 204.0s |
| #93 | GLM 4.7 Flash medium | Z.ai | 2 | 3.5 | 0/3 | 174.6s |
| #30 | Step 3.5 Flash medium | Stepfun | 2 | 5.3 | 1/3 | 170.5s |
| #32 | Qwen3.5-Flash medium | Qwen | 1 | 5.3 | 1/3 | 146.5s |
| #46 | Kimi K2.5 medium | Moonshot AI | 2 | 3.5 | 0/3 | 137.3s |
| #11 | Gemini 3.1 Flash Lite Preview high | 2 | 5.3 | 1/3 | 127.6s | |
| #52 | Grok 4.1 Fast medium | X AI | 1 | 5.8 | 1/3 | 121.8s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 2 | 5.9 | 1/3 | 96.0s |
| #6 | Seed-2.0-Lite medium | Bytedance Seed | 2 | 5.9 | 1/3 | 88.7s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 1 | 4.1 | 0/3 | 88.3s |
| #37 | Claude Opus 4.6 medium | Anthropic | 1 | 3.0 | 0/3 | 83.4s |
| #10 | Qwen3.5-27B medium | Qwen | 1 | 5.3 | 1/3 | 79.5s |
| #40 | GPT-5.2 medium | OpenAI | 1 | 5.9 | 1/3 | 77.8s |
| #16 | GPT-5.4 medium | OpenAI | 2 | 5.3 | 1/3 | 74.3s |