AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Cultura general: Respuesta incorrecta

Cultura general
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Cultura general, para detectar puntos débiles más rápido.

Modelos mostrados

12

Fallos totales

117

Modelo más afectado

Claude Opus 4.7 1

Motivos de fallo

Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#128 MiMo-V2.5 none Xiaomi 1 3.0 0/1 3.89s
#129 Qwen3 Coder Next medium Qwen 1 3.0 0/1 399ms
#130 Trinity Large Preview none Arcee AI 1 3.0 0/1 777ms
#131 Mercury 2 none Inception 1 3.0 0/1 548ms
#132 Qwen3.5-9B none Qwen 1 3.0 0/1 2.32s
#133 HY3 Preview none Tencent 1 3.0 0/1 2.71s
#135 GPT-5.4 Nano none OpenAI 1 3.0 0/1 773ms
#136 GLM 4.7 Flash medium Z.ai 1 3.0 0/1 11.1s
#137 MiMo-V2-Flash none Xiaomi 1 3.0 0/1 1.82s
#139 Grok 4.1 Fast none X AI 1 3.0 0/1 731ms
#140 Qwen3.5-9B medium Qwen 1 3.0 0/1 177.0s
#142 Granite 4.1 8B none IBM Granite 1 3.0 0/1 306ms

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado