AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Seguimiento de instrucciones: No siguió las instrucciones

Seguimiento de instrucciones
No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Seguimiento de instrucciones, para detectar puntos débiles más rápido.

Modelos mostrados

11

Fallos totales

11

Modelo más afectado

Step 3.5 Flash 1
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#62 Step 3.5 Flash medium Stepfun 1 8.3 1/2 4.78s
#80 Mimo V2 Omni medium Xiaomi 1 8.3 1/2 4.99s
#86 Grok 4.1 Fast medium X AI 1 6.5 1/2 4.63s
#105 Nemotron 3 Super medium NVIDIA 1 7.3 1/2 6.97s
#129 MiniMax M2.5 medium Minimax 1 7.5 1/2 621ms
#130 MiniMax M2.7 medium Minimax 1 3.8 0/2 12.8s
#149 Nemotron 3 Nano Omni 30b A3b Reasoning medium NVIDIA 1 7.3 1/2 1.37s
#151 Trinity Large Preview none Arcee AI 1 3.5 0/2 822ms
#157 Grok 4.1 Fast none X AI 1 3.0 0/2 685ms
#162 Nemotron 3 Nano Omni 30b A3b Reasoning none NVIDIA 1 4.8 0/2 541ms
#163 Granite 4.1 8B none IBM Granite 1 3.6 0/2 344ms

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado