AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Específico del dominio: Respuesta incorrecta

Específico del dominio
Respuesta incorrecta

Mira qué modelos de IA tienen más probabilidades de caer en Respuesta incorrecta dentro de Específico del dominio, para detectar puntos débiles más rápido.

Modelos mostrados

15

Fallos totales

314

Modelo más afectado

Qwen3.6 Max Preview 3
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#56 MiMo-V2.5 medium Xiaomi 1 5.3 1/3 34.5s
#65 Grok 4.20 medium X AI 1 5.3 1/3 27.0s
#66 Qwen3.5-35B-A3B medium Qwen 1 4.1 0/3 88.3s
#69 Claude Opus 4.6 medium Anthropic 1 3.0 0/3 83.4s
#74 Qwen3.6 Max Preview none Qwen 1 7.7 2/3 1.22s
#77 Claude Sonnet 4.6 none Anthropic 1 7.7 2/3 3.54s
#79 Hunter Alpha medium OpenRouter 1 3.0 0/3 10.5s
#80 Mimo V2 Omni medium Xiaomi 1 3.0 0/3 47.9s
#85 Gemma 4 31B none Google 1 7.7 2/3 3.22s
#86 Grok 4.1 Fast medium X AI 1 5.8 1/3 121.8s
#94 GPT-5 Nano medium OpenAI 1 5.2 1/3 204.0s
#103 DeepSeek V4 Pro high DeepSeek 1 2.9 0/3 205.7s
#108 Qwen3.5-Flash none Qwen 1 7.7 2/3 905ms
#117 Qwen3.5-35B-A3B none Qwen 1 7.7 2/3 485ms
#118 Qwen3.6 27B none Qwen 1 7.7 2/3 3.03s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado