AI BENCHY
AD
Track all your projects in one dashboard. Get 📊stats, 🔥heatmaps and 👀recordings in one self-hosted dashboard.
uxwizz.com

Fallos AI BENCHY

Fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↑.

Modelos mostrados

15

Fallos totales

1204

Modelo más afectado

Mistral Small 4 15
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 12 6.0 8/21 2.27s
#120 Mimo V2 PRO none Xiaomi 11 5.6 7/21 2.27s
#95 Qwen3.5 Plus 2026-02-15 none Qwen 12 6.3 9/21 2.31s
#101 Mimo V2 Omni none Xiaomi 10 6.0 8/21 2.44s
#110 Seed-2.0-Lite none Bytedance Seed 13 5.8 8/21 2.49s
#152 MiMo-V2-Flash none Xiaomi 13 4.6 4/21 2.76s
#50 Gemini 3.1 Flash Lite Preview low Google 7 7.4 13/21 2.77s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#88 Qwen3.7 Plus none Qwen 10 6.4 10/21 2.85s
#122 GLM 4.7 Flash none Z.ai 13 5.5 6/21 2.86s
#145 Laguna M.1 none Poolside 10 4.8 4/19 2.89s
#151 Trinity Large Preview none Arcee AI 12 4.6 4/21 2.98s
#109 GLM 5V Turbo none Z.ai 11 5.8 8/21 2.99s
#8 Claude Opus 4.7 none Anthropic 3 8.9 16/19 3.02s
#44 Gemini 3.1 Flash Lite medium Google 7 7.5 13/21 3.23s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)