Fallos por categoría de AI BENCHY
Inteligencia general: Respuesta incorrecta
Inteligencia general
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Inteligencia general, para detectar puntos débiles más rápido. Ordenar por: Pruebas correctas ↑.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #22 | Step 3.7 Flash medium | Stepfun | 1 | 4.0 | 0/1 | 6.85s |
| #23 | GLM 5 Turbo medium | Z.ai | 1 | 6.1 | 0/1 | 10.1s |
| #36 | Qwen3.5 Plus 2026-04-20 medium | Qwen | 1 | 4.9 | 0/1 | 25.3s |
| #39 | Qwen3.6 Flash medium | Qwen | 1 | 4.8 | 0/1 | 9.88s |
| #47 | Grok Build 0.1 medium | X AI | 1 | 4.4 | 0/1 | 18.4s |
| #57 | Step 3.7 Flash low | Stepfun | 1 | 3.4 | 0/1 | 7.00s |
| #61 | Gemini 3.1 Flash Lite low | 1 | 4.0 | 0/1 | 1.37s | |
| #71 | Step 3.7 Flash high | Stepfun | 1 | 5.5 | 0/1 | 4.17s |
| #74 | Qwen3.6 Max Preview none | Qwen | 1 | 4.3 | 0/1 | 1.62s |
| #80 | Mimo V2 Omni medium | Xiaomi | 1 | 5.4 | 0/1 | 3.61s |
| #90 | Gemini 3.1 Flash Lite none | 1 | 4.0 | 0/1 | 992ms | |
| #95 | Qwen3.5 Plus 2026-02-15 none | Qwen | 1 | 4.4 | 0/1 | 2.26s |
| #96 | Ring-2.6-1T none | Inclusionai | 1 | 4.3 | 0/1 | 15.6s |
| #97 | Gemini 2.5 Flash none | 1 | 5.0 | 0/1 | 615ms | |
| #100 | Grok Build 0.1 none | X AI | 1 | 4.3 | 0/1 | 12.5s |