AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Específico del dominio: Formato extra

Específico del dominio
Formato extra

Mira qué modelos de IA tienen más probabilidades de caer en Formato extra dentro de Específico del dominio, para detectar puntos débiles más rápido.

Modelos mostrados

10

Fallos totales

12

Modelo más afectado

MiMo-V2.5-Pro 2
Rango Modelo Empresa Cantidad de Formato extra Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#43 MiMo-V2.5-Pro medium Xiaomi 2 5.3 1/3 37.9s
#69 Claude Opus 4.6 medium Anthropic 2 3.0 0/3 83.4s
#47 Grok Build 0.1 medium X AI 1 5.3 1/3 158.0s
#52 Claude Sonnet 4.6 medium Anthropic 1 2.9 0/3 0ms
#56 MiMo-V2.5 medium Xiaomi 1 5.3 1/3 34.5s
#65 Grok 4.20 medium X AI 1 5.3 1/3 27.0s
#79 Hunter Alpha medium OpenRouter 1 3.0 0/3 10.5s
#80 Mimo V2 Omni medium Xiaomi 1 3.0 0/3 47.9s
#84 Grok 4.20 Multi Agent Beta medium X AI 1 2.9 0/3 24.7s
#127 Grok 4.20 none X AI 1 3.0 0/3 687ms

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado