Fallos AI BENCHY
Fallos por Tiempo agotado
Mira qué modelos de IA se encuentran con Tiempo agotado con más frecuencia para detectar riesgos de fiabilidad antes de elegir.
Categorías
En la categoría Específico del dominio31 En la categoría Programación12 En la categoría Resolución de acertijos6 En la categoría Inteligencia general4 En la categoría Trucos anti-IA4 En la categoría Combinado2 En la categoría Análisis y extracción de datos1 En la categoría Seguimiento de instrucciones1
| Rango | Modelo | Empresa | Cantidad de Tiempo agotado | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #10 | Qwen3.5-27B medium | Qwen | 1 | 8.4 | 13/18 | 53.0s |
| #13 | GLM 5 medium | Z.ai | 1 | 8.4 | 13/18 | 23.3s |
| #14 | Gemma 4 31B medium | 1 | 8.3 | 13/18 | 24.9s | |
| #18 | GLM 5 Turbo medium | Z.ai | 1 | 8.1 | 12/18 | 17.7s |
| #23 | MiMo-V2-Pro medium | Xiaomi | 1 | 8.1 | 12/18 | 12.3s |
| #26 | Claude Sonnet 4.6 medium | Anthropic | 1 | 8.0 | 13/18 | 12.7s |
| #40 | GPT-5.2 medium | OpenAI | 1 | 7.5 | 11/18 | 14.0s |
| #41 | MiMo-V2-Flash medium | Xiaomi | 1 | 7.5 | 11/18 | 23.4s |
| #45 | GPT-5 Mini medium | OpenAI | 1 | 7.0 | 9/18 | 24.0s |
| #51 | Nemotron 3 Super medium | NVIDIA | 1 | 6.7 | 9/18 | 19.1s |
| #52 | Grok 4.1 Fast medium | X AI | 1 | 6.7 | 9/18 | 23.9s |
| #57 | GPT-5 Nano medium | OpenAI | 1 | 6.3 | 7/18 | 44.1s |
| #60 | Gemma 4 26B A4B none | 1 | 6.2 | 7/18 | 6.59s | |
| #92 | Qwen3 Coder Next medium | Qwen | 1 | 4.7 | 3/18 | 10.8s |
| #93 | GLM 4.7 Flash medium | Z.ai | 1 | 4.6 | 4/18 | 32.3s |