Falhas por categoria AI BENCHY
Específico do domínio: Tempo esgotado
Específico do domínio
Tempo esgotado
Veja quais modelos de IA têm mais chance de encontrar Tempo esgotado em Específico do domínio, para identificar pontos fracos mais rápido. Ordenar por: Tempo de resposta (médio) ↓.
Motivos de falha
| Posição | Modelo | Empresa | Contagem de Tempo esgotado | Pontuação da categoria | Testes corretos | Tempo de resposta (médio) |
|---|---|---|---|---|---|---|
| #71 | MiniMax M2.5 medium | Minimax | 1 | 2.9 | 0/3 | 237.3s |
| #57 | GPT-5 Nano medium | OpenAI | 1 | 5.2 | 1/3 | 204.0s |
| #34 | Kimi K2.6 medium | Moonshot AI | 2 | 5.3 | 1/3 | 202.4s |
| #32 | Qwen3.5-Flash medium | Qwen | 1 | 5.3 | 1/3 | 146.5s |
| #97 | Qwen3.5-9B medium | Qwen | 3 | 3.6 | 0/3 | 137.7s |
| #46 | Kimi K2.5 medium | Moonshot AI | 1 | 3.5 | 0/3 | 137.3s |
| #52 | Grok 4.1 Fast medium | X AI | 1 | 5.8 | 1/3 | 121.8s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 2 | 4.1 | 0/3 | 88.3s |
| #10 | Qwen3.5-27B medium | Qwen | 1 | 5.3 | 1/3 | 79.5s |
| #40 | GPT-5.2 medium | OpenAI | 1 | 5.9 | 1/3 | 77.8s |
| #18 | GLM 5 Turbo medium | Z.ai | 1 | 2.9 | 0/3 | 71.1s |
| #45 | GPT-5 Mini medium | OpenAI | 1 | 3.6 | 0/3 | 44.6s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 5.3 | 1/3 | 39.3s |
| #33 | GLM 5.1 medium | Z.ai | 1 | 5.3 | 1/3 | 29.8s |
| #24 | Gemma 4 26B A4B medium | 1 | 2.9 | 0/3 | 23.6s |