Fallos por categoría de AI BENCHY
Inteligencia general: Respuesta incorrecta
Inteligencia general
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Inteligencia general, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #36 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 1 | 4.9 | 0/1 | 25.3s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 1 | 4.2 | 0/1 | 23.7s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 4.4 | 0/1 | 18.4s |
| #158 | GLM 4.7 Flash medium | Z.ai | 1 | 3.6 | 0/1 | 18.1s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 4.3 | 0/1 | 15.6s |
| #104 | Nemotron 3 Ultra 550b A55b none | NVIDIA | 1 | 5.0 | 0/1 | 13.5s |
| #100 | Grok Build 0.1 none | X AI | 1 | 4.3 | 0/1 | 12.5s |
| #126 | gpt-oss-120b none | OpenAI | 1 | 4.8 | 0/1 | 10.8s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 6.1 | 0/1 | 10.1s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 4.8 | 0/1 | 9.88s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 3.4 | 0/1 | 7.00s |
| #143 | MiMo-V2.5 none | Xiaomi | 1 | 4.4 | 0/1 | 6.86s |
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 4.0 | 0/1 | 6.85s |
| #71 | Step 3.7 Flash high | Stepfun | 1 | 5.5 | 0/1 | 4.17s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 5.4 | 0/1 | 3.61s |