AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Cultura general: Respuesta incorrecta

Cultura general
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Cultura general, para detectar puntos débiles más rápido.

Modelos mostrados

15

Fallos totales

117

Modelo más afectado

Claude Opus 4.7 1

Motivos de fallo

Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#56 Seed-2.0-Mini medium Bytedance Seed 1 3.0 0/1 56.8s
#57 Qwen3.5-35B-A3B medium Qwen 1 3.0 0/1 177.4s
#58 GPT-5.2 medium OpenAI 1 3.0 0/1 28.2s
#59 DeepSeek V3.2 medium DeepSeek 1 3.0 0/1 84.0s
#60 GPT-5.4 Mini medium OpenAI 1 3.0 0/1 30.1s
#61 Claude Sonnet 4.6 none Anthropic 1 3.0 0/1 4.67s
#62 MiMo-V2-Omni medium Xiaomi 1 3.0 0/1 234.2s
#64 Gemma 4 31B none Google 1 3.0 0/1 1.25s
#65 DeepSeek V4 Pro high DeepSeek 1 3.0 0/1 39.1s
#66 Grok 4.20 medium X AI 1 3.0 0/1 63.5s
#67 GPT-5 Mini medium OpenAI 1 3.0 0/1 9.99s
#68 Gemini 3.1 Flash Lite minimal Google 1 3.0 0/1 724ms
#69 Kimi K2.5 medium Moonshot AI 1 3.0 0/1 83.9s
#70 Qwen3.6 27B medium Qwen 1 3.0 0/1 81.0s
#72 GPT-5.5 none OpenAI 1 3.0 0/1 5.01s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado