Fallos por categoría de AI BENCHY
Cultura general: Respuesta incorrecta
Cultura general
Respuesta incorrecta
Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Cultura general, para detectar puntos débiles más rápido.
Motivos de fallo
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación de categoría | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #56 | Seed-2.0-Mini medium | Bytedance Seed | 1 | 3.0 | 0/1 | 56.8s |
| #57 | Qwen3.5-35B-A3B medium | Qwen | 1 | 3.0 | 0/1 | 177.4s |
| #58 | GPT-5.2 medium | OpenAI | 1 | 3.0 | 0/1 | 28.2s |
| #59 | DeepSeek V3.2 medium | DeepSeek | 1 | 3.0 | 0/1 | 84.0s |
| #60 | GPT-5.4 Mini medium | OpenAI | 1 | 3.0 | 0/1 | 30.1s |
| #61 | Claude Sonnet 4.6 none | Anthropic | 1 | 3.0 | 0/1 | 4.67s |
| #62 | MiMo-V2-Omni medium | Xiaomi | 1 | 3.0 | 0/1 | 234.2s |
| #64 | Gemma 4 31B none | 1 | 3.0 | 0/1 | 1.25s | |
| #65 | DeepSeek V4 Pro high | DeepSeek | 1 | 3.0 | 0/1 | 39.1s |
| #66 | Grok 4.20 medium | X AI | 1 | 3.0 | 0/1 | 63.5s |
| #67 | GPT-5 Mini medium | OpenAI | 1 | 3.0 | 0/1 | 9.99s |
| #68 | Gemini 3.1 Flash Lite minimal | 1 | 3.0 | 0/1 | 724ms | |
| #69 | Kimi K2.5 medium | Moonshot AI | 1 | 3.0 | 0/1 | 83.9s |
| #70 | Qwen3.6 27B medium | Qwen | 1 | 3.0 | 0/1 | 81.0s |
| #72 | GPT-5.5 none | OpenAI | 1 | 3.0 | 0/1 | 5.01s |