Fallos por categoría de AI BENCHY
Específico del dominio: Tiempo agotado
Específico del dominio
Tiempo agotado
Mira qué modelos de IA tienen más probabilidades de caer en Tiempo agotado dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Tiempo agotado | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #71 | MiniMax M2.5 medium | Minimax | 1 | 2.9 | 0/3 | 237.3s |
| #57 | GPT-5 Nano medium | OpenAI | 1 | 5.2 | 1/3 | 204.0s |
| #34 | Kimi K2.6 medium | Moonshot AI | 2 | 5.3 | 1/3 | 202.4s |
| #32 | Qwen3.5-Flash medium | Qwen | 1 | 5.3 | 1/3 | 146.5s |
| #97 | Qwen3.5-9B medium | Qwen | 3 | 3.6 | 0/3 | 137.7s |
| #46 | Kimi K2.5 medium | Moonshot AI | 1 | 3.5 | 0/3 | 137.3s |
| #52 | Grok 4.1 Fast medium | X AI | 1 | 5.8 | 1/3 | 121.8s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 2 | 4.1 | 0/3 | 88.3s |
| #10 | Qwen3.5-27B medium | Qwen | 1 | 5.3 | 1/3 | 79.5s |
| #40 | GPT-5.2 medium | OpenAI | 1 | 5.9 | 1/3 | 77.8s |
| #18 | GLM 5 Turbo medium | Z.ai | 1 | 2.9 | 0/3 | 71.1s |
| #45 | GPT-5 Mini medium | OpenAI | 1 | 3.6 | 0/3 | 44.6s |
| #27 | DeepSeek V3.2 medium | DeepSeek | 1 | 5.3 | 1/3 | 39.3s |
| #33 | GLM 5.1 medium | Z.ai | 1 | 5.3 | 1/3 | 29.8s |
| #24 | Gemma 4 26B A4B medium | 1 | 2.9 | 0/3 | 23.6s |