AI BENCHY
Your ad here

Fallos por categoría de AI BENCHY

Específico del dominio: Formato extra

Específico del dominio
Formato extra

Mira qué modelos de IA tienen más probabilidades de caer en Formato extra dentro de Específico del dominio, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

7

Fallos totales

8

Modelo más afectado

Claude Sonnet 4.6 1
Rango Modelo Empresa Cantidad de Formato extra Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#26 Claude Sonnet 4.6 medium Anthropic 1 2.9 0/3 0ms
#82 Grok 4.20 none X AI 1 3.0 0/3 687ms
#50 Hunter Alpha medium OpenRouter 1 3.0 0/3 10.5s
#56 Grok 4.20 Multi Agent Beta medium X AI 1 2.9 0/3 24.7s
#47 Grok 4.20 medium X AI 1 5.3 1/3 27.0s
#35 MiMo-V2-Omni medium Xiaomi 1 3.0 0/3 55.1s
#37 Claude Opus 4.6 medium Anthropic 2 3.0 0/3 83.4s

Mejores modelos por Cantidad de Formato extra

Cantidad de Formato extra vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado