AI BENCHY
Advertise here

Fallos AI BENCHY

Fallos por Respuesta incorrecta

Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir. Ordenar por: Tiempo de respuesta (promedio) ↓.

Modelos mostrados

15

Fallos totales

1204

Modelo más afectado

Kimi K2.5 5
Rango Modelo Empresa Cantidad de Respuesta incorrecta Puntuación Pruebas correctas Tiempo de respuesta (promedio)
#109 GLM 5V Turbo none Z.ai 11 5.8 8/21 2.99s
#151 Trinity Large Preview none Arcee AI 12 4.6 4/21 2.98s
#145 Laguna M.1 none Poolside 10 4.8 4/19 2.89s
#122 GLM 4.7 Flash none Z.ai 13 5.5 6/21 2.86s
#88 Qwen3.7 Plus none Qwen 10 6.4 10/21 2.85s
#134 GLM 5 Turbo none Z.ai 13 5.2 6/21 2.82s
#50 Gemini 3.1 Flash Lite Preview low Google 7 7.4 13/21 2.77s
#152 MiMo-V2-Flash none Xiaomi 13 4.6 4/21 2.76s
#110 Seed-2.0-Lite none Bytedance Seed 13 5.8 8/21 2.49s
#101 Mimo V2 Omni none Xiaomi 10 6.0 8/21 2.44s
#95 Qwen3.5 Plus 2026-02-15 none Qwen 12 6.3 9/21 2.31s
#120 Mimo V2 PRO none Xiaomi 11 5.6 7/21 2.27s
#104 Nemotron 3 Ultra 550b A55b none NVIDIA 12 6.0 8/21 2.27s
#81 Mercury 2 medium Inception 8 6.6 10/21 2.24s
#143 MiMo-V2.5 none Xiaomi 14 4.9 5/21 2.20s

Mejores modelos por Cantidad de Respuesta incorrecta

Cantidad de Respuesta incorrecta vs Puntuación

Mejores modelos por Tiempo de respuesta (promedio)