AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Cultura general: Respuesta incorrecta

Cultura general
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Cultura general, para detectar puntos débiles más rápido.

Modelos mostrados

15

Fallos totales

117

Modelo más afectado

Claude Opus 4.7 1

Motivos de fallo

Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#73 Gemini 3.1 Flash Lite none Google 1 3.0 0/1 733ms
#76 Qwen3.5 Plus 2026-02-15 none Qwen 1 3.0 0/1 1.11s
#77 Grok 4.1 Fast medium X AI 1 3.0 0/1 25.5s
#78 GLM 5 none Z.ai 1 3.0 0/1 3.62s
#79 MiMo-V2-Omni none Xiaomi 1 3.0 0/1 1.30s
#80 Mercury 2 medium Inception 1 3.0 0/1 2.58s
#81 Gemini 2.5 Flash none Google 1 3.0 0/1 1.15s
#82 Gemma 4 26B A4B none Google 1 3.0 0/1 778ms
#83 GPT-5 Nano medium OpenAI 1 3.0 0/1 20.1s
#84 DeepSeek V4 Pro none DeepSeek 1 3.0 0/1 15.6s
#85 Nemotron 3 Super medium NVIDIA 1 3.0 0/1 55.3s
#86 Seed-2.0-Lite none Bytedance Seed 1 3.0 0/1 1.96s
#87 GLM 5V Turbo none Z.ai 1 3.0 0/1 2.23s
#88 Owl Alpha medium Openrouter 1 3.0 0/1 2.38s
#89 Qwen3.5-Flash none Qwen 1 3.0 0/1 588ms

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado