AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Fallos por categoría de AI BENCHY

Trucos anti-IA: No siguió las instrucciones

Trucos anti-IA
No siguió las instrucciones

Mira qué modelos de IA tienen más probabilidades de caer en No siguió las instrucciones dentro de Trucos anti-IA, para detectar puntos débiles más rápido. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

15

Fallos totales

30

Modelo más afectado

Laguna Xs.2 1
Rango Modelo Empresa Cantidad de No siguió las instrucciones Puntuación de categoría Pruebas correctas Tiempo de respuesta (promedio)
#146 Laguna Xs.2 none Poolside 1 3.0 0/4 534ms
#163 Granite 4.1 8B none IBM Granite 1 4.9 1/4 844ms
#137 Elephant Alpha none Openrouter 1 6.6 2/4 963ms
#58 Gemini 3.1 Flash Lite Preview none Google 1 7.5 2/4 1.04s
#157 Grok 4.1 Fast none X AI 1 3.2 0/4 1.07s
#81 Mercury 2 medium Inception 1 6.9 2/4 1.12s
#101 Mimo V2 Omni none Xiaomi 1 3.6 0/4 1.63s
#40 Gemini 3.1 Flash Lite Preview medium Google 1 9.1 3/4 2.33s
#44 Gemini 3.1 Flash Lite medium Google 1 9.1 3/4 2.39s
#123 MiMo-V2.5-Pro none Xiaomi 1 3.3 0/4 2.67s
#121 Owl Alpha none Openrouter 1 3.4 0/4 2.78s
#140 Qwen3 Coder Next none Qwen 1 3.6 0/4 3.31s
#63 GPT-5.3 Chat none OpenAI 1 6.7 2/4 3.86s
#42 GPT-5.2 medium OpenAI 1 6.5 2/4 7.81s
#150 Qwen3 Coder Next medium Qwen 1 3.5 0/4 8.64s

Mejores modelos por Cantidad de No siguió las instrucciones

Cantidad de No siguió las instrucciones vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)

Mejores modelos por Costo desperdiciado estimado