AI BENCHY
Comparar Gráficos Metodología
❤️ Made by XCS
Your ad here

Fallos por categoría de AI BENCHY

Resolución de acertijos
No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Resolución de acertijos, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

20

Fallos totales

24

Modelo más afectado

Qwen3.5-27B 1
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#7 Qwen3.5-27B medium Qwen 1 8.3 2/3 64.6s
#28 Kimi K2.5 medium Moonshot AI 1 4.0 1/3 45.4s
#34 GPT-5 Nano medium OpenAI 1 4.0 1/3 19.8s
#32 GPT-5 Mini medium OpenAI 1 4.3 1/3 14.1s
#52 GLM 4.7 Flash medium Z.ai 1 10.0 0/3 12.9s
#39 gpt-oss-120b medium OpenAI 2 1.7 0/3 11.8s
#9 GPT-5.4 medium OpenAI 1 7.0 2/3 9.13s
#30 Grok 4.1 Fast medium X AI 1 4.0 1/3 8.08s
#13 Step 3.5 Flash medium Stepfun 1 4.0 1/3 7.72s
#37 Qwen3.5-Flash none Qwen 1 1.3 0/3 5.90s
#27 GPT-5.2 medium OpenAI 1 7.0 2/3 5.47s
#3 GPT-5.3-Codex medium OpenAI 1 9.3 2/3 5.12s
#50 Qwen3 Coder Next medium Qwen 2 10.0 0/3 2.30s
#55 LFM2-24B-A2B none Liquid 1 3.3 0/3 1.69s
#44 GPT-5.4 none OpenAI 1 4.0 1/3 1.52s
#41 Qwen3.5-27B none Qwen 1 6.3 1/3 1.37s
#42 Qwen3.5-35B-A3B none Qwen 1 1.7 0/3 1.34s
#49 GLM 4.7 Flash none Z.ai 2 3.7 0/3 1.00s
#36 Mercury 2 medium Inception 2 1.7 0/3 934ms
#38 Gemini 2.5 Flash none Google 1 4.7 1/3 576ms

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs puntuación promedio

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado