Fallos AI BENCHY
Fallos por Respuesta incorrecta
Mira qué modelos de IA se encuentran con Respuesta incorrecta con más frecuencia para detectar riesgos de fiabilidad antes de elegir.
Categorías
En la categoría Específico del dominio314 En la categoría Trucos anti-IA245 En la categoría Programación194 En la categoría Resolución de acertijos147 En la categoría Cultura general130 En la categoría Seguimiento de instrucciones53 En la categoría Combinado52 En la categoría Análisis y extracción de datos35 En la categoría Inteligencia general32 En la categoría Llamada de herramientas2
| Rango | Modelo | Empresa | Cantidad de Respuesta incorrecta | Puntuación | Pruebas correctas | Tiempo de respuesta (promedio) |
|---|---|---|---|---|---|---|
| #132 | Mistral Small 4 medium | Mistral | 12 | 5.3 | 5/21 | 9.40s |
| #139 | DeepSeek V4 Flash none | DeepSeek | 12 | 5.0 | 5/21 | 26.8s |
| #151 | Trinity Large Preview none | Arcee AI | 12 | 4.6 | 4/21 | 2.98s |
| #159 | Ling-2.6-1T none | Inclusionai | 12 | 4.3 | 3/21 | 7.72s |
| #90 | Gemini 3.1 Flash Lite none | 11 | 6.4 | 9/21 | 1.06s | |
| #91 | GPT-5.5 none | OpenAI | 11 | 6.4 | 10/21 | 1.89s |
| #109 | GLM 5V Turbo none | Z.ai | 11 | 5.8 | 8/21 | 2.99s |
| #118 | Qwen3.6 27B none | Qwen | 11 | 5.6 | 7/21 | 3.72s |
| #120 | Mimo V2 PRO none | Xiaomi | 11 | 5.6 | 7/21 | 2.27s |
| #123 | MiMo-V2.5-Pro none | Xiaomi | 11 | 5.5 | 6/21 | 1.78s |
| #124 | Kimi K2.6 none | Moonshot AI | 11 | 5.5 | 7/21 | 13.3s |
| #74 | Qwen3.6 Max Preview none | Qwen | 10 | 6.9 | 11/21 | 3.30s |
| #88 | Qwen3.7 Plus none | Qwen | 10 | 6.4 | 10/21 | 2.85s |
| #101 | Mimo V2 Omni none | Xiaomi | 10 | 6.0 | 8/21 | 2.44s |
| #102 | Gemma 4 26B A4B none | 10 | 6.0 | 8/21 | 5.91s |