Fallos AI BENCHY
Fallos por Tiempo agotado
Mira qué modelos de IA se encuentran con Tiempo agotado con más frecuencia para detectar riesgos de fiabilidad antes de elegir.
Categorías
En la categoría Específico del dominio31 En la categoría Programación12 En la categoría Resolución de acertijos6 En la categoría Inteligencia general4 En la categoría Trucos anti-IA4 En la categoría Combinado2 En la categoría Análisis y extracción de datos1 En la categoría Seguimiento de instrucciones1
| Rango | Modelo | Empresa | Cantidad de Tiempo agotado | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #97 | Qwen3.5-9B medium | Qwen | 11 | 4.4 | 3/18 | 73.6s |
| #32 | Qwen3.5-Flash medium | Qwen | 4 | 7.8 | 11/18 | 66.7s |
| #39 | Seed-2.0-Mini medium | Bytedance Seed | 4 | 7.5 | 11/18 | 69.7s |
| #43 | Qwen3.5-35B-A3B medium | Qwen | 4 | 7.4 | 10/18 | 44.5s |
| #71 | MiniMax M2.5 medium | Minimax | 4 | 5.7 | 5/18 | 39.6s |
| #8 | Qwen3.5 Plus 2026-02-15 medium | Qwen | 2 | 8.5 | 14/18 | 46.6s |
| #19 | Qwen3.5-122B-A10B medium | Qwen | 2 | 8.1 | 13/18 | 31.4s |
| #24 | Gemma 4 26B A4B medium | 2 | 8.0 | 13/18 | 25.0s | |
| #27 | DeepSeek V3.2 medium | DeepSeek | 2 | 8.0 | 12/18 | 46.4s |
| #33 | GLM 5.1 medium | Z.ai | 2 | 7.8 | 12/18 | 24.1s |
| #34 | Kimi K2.6 medium | Moonshot AI | 2 | 7.7 | 11/18 | 45.2s |
| #46 | Kimi K2.5 medium | Moonshot AI | 2 | 7.0 | 9/18 | 72.4s |
| #50 | Hunter Alpha medium | OpenRouter | 2 | 6.7 | 8/18 | 10.3s |
| #80 | MiniMax M2.7 medium | Minimax | 2 | 5.3 | 4/18 | 31.1s |
| #3 | Claude Opus 4.7 medium | Anthropic | 1 | 9.2 | 16/18 | 3.53s |