AI BENCHY
Your ad here

Fallos por categoría de AI BENCHY

Específico del dominio: Formato extra

Específico del dominio
Formato extra

Mira qué modelos de IA tienen más probabilidades de caer en Formato extra dentro de Específico del dominio, para detectar puntos débiles más rápido.

Modelos mostrados

7

Fallos totales

8

Modelo más afectado

Claude Opus 4.6 2
Rango Modelo Empresa Cantidad de Formato extra Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#37 Claude Opus 4.6 medium Anthropic 2 3.0 0/3 83.4s
#26 Claude Sonnet 4.6 medium Anthropic 1 2.9 0/3 0ms
#35 MiMo-V2-Omni medium Xiaomi 1 3.0 0/3 55.1s
#47 Grok 4.20 medium X AI 1 5.3 1/3 27.0s
#50 Hunter Alpha medium OpenRouter 1 3.0 0/3 10.5s
#56 Grok 4.20 Multi Agent Beta medium X AI 1 2.9 0/3 24.7s
#82 Grok 4.20 none X AI 1 3.0 0/3 687ms

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado