AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Fallos por categoría de AI BENCHY

Inteligencia general: No siguió las instrucciones

Inteligencia general
No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Inteligencia general, para detectar puntos débiles más rápido.

Modelos mostrados

15

Fallos totales

58

Modelo más afectado

Seed-2.0-Lite 1
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#57 GPT-5 Nano medium OpenAI 1 4.1 0/1 17.5s
#58 GLM 5V Turbo none Z.ai 1 4.6 0/1 2.22s
#60 Gemma 4 26B A4B none Google 1 4.0 0/1 3.54s
#63 Qwen3.5-35B-A3B none Qwen 1 6.5 0/1 1.19s
#65 MiMo-V2-Pro none Xiaomi 1 4.3 0/1 2.44s
#67 Qwen3.5-27B none Qwen 1 5.0 0/1 2.51s
#68 gpt-oss-120b medium OpenAI 1 4.3 0/1 7.90s
#69 Kimi K2.6 none Moonshot AI 1 5.4 0/1 1.55s
#70 Qwen3.5-122B-A10B none Qwen 1 5.0 0/1 1.12s
#71 MiniMax M2.5 medium Minimax 1 3.8 0/1 6.63s
#72 Hunter Alpha none OpenRouter 1 6.1 0/1 2.71s
#73 Mistral Small 4 medium Mistral 1 4.8 0/1 2.05s
#77 GLM 5 Turbo none Z.ai 1 4.2 0/1 2.18s
#78 Trinity Large Preview none Arcee AI 1 4.4 0/1 2.86s
#79 Grok 4.20 Beta none X AI 1 5.0 0/1 541ms

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado