AI BENCHY
Advertise here

Fallos por categoría de AI BENCHY

Inteligencia general: No siguió las instrucciones

Inteligencia general
No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Inteligencia general, para detectar puntos débiles más rápido.

Modelos mostrados

14

Fallos totales

74

Modelo más afectado

GPT-5.3-Codex 1
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#134 GLM 5 Turbo none Z.ai 1 4.2 0/1 2.18s
#136 Elephant Alpha medium Openrouter 1 4.3 0/1 920ms
#137 Elephant Alpha none Openrouter 1 4.0 0/1 854ms
#144 GPT-5.4 Mini none OpenAI 1 4.8 0/1 1.82s
#148 GPT-5.4 Nano none OpenAI 1 3.8 0/1 1.31s
#150 Qwen3 Coder Next medium Qwen 1 6.3 0/1 1.39s
#151 Trinity Large Preview none Arcee AI 1 4.5 0/1 873ms
#152 MiMo-V2-Flash none Xiaomi 1 4.6 0/1 1.67s
#154 Qwen3.5-9B none Qwen 1 4.4 0/1 552ms
#155 Mercury 2 none Inception 1 4.8 0/1 628ms
#156 Hy3 preview none Tencent 1 4.1 0/1 16.1s
#157 Grok 4.1 Fast none X AI 1 4.4 0/1 1.08s
#159 Ling-2.6-1T none Inclusionai 1 5.0 0/1 20.3s
#160 LFM2-24B-A2B none Liquid 1 4.0 0/1 395ms

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado