AI BENCHY
Your ad here

Fallos por categoría de AI BENCHY

Seguimiento de instrucciones: No siguió las instrucciones

Seguimiento de instrucciones
No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Seguimiento de instrucciones, para detectar puntos débiles más rápido.

Modelos mostrados

7

Fallos totales

22

Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#80 MiniMax M2.7 medium Minimax 1 3.7 0/2 12.6s
#82 Grok 4.20 none X AI 1 4.8 0/2 455ms
#84 gpt-oss-120b none OpenAI 1 8.4 1/2 5.10s
#88 Nemotron 3 Super none NVIDIA 1 4.9 0/2 1.50s
#89 GPT-4o-mini none OpenAI 1 4.8 0/2 1.27s
#92 Qwen3 Coder Next medium Qwen 1 4.8 0/2 7.34s
#96 GPT-5.4 Nano none OpenAI 1 5.0 0/2 787ms

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado